魔搭中文开源模型社区:模型即服务-达摩院通义视觉生成大模型(下)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 魔搭中文开源模型社区:模型即服务-达摩院通义视觉生成大模型

二、 多模态可变的扩散模型

 

image.png

 

接下来,讲一讲维度可变的扩散模型,这是目前效果最好的一种生成模型范式。

传统的生成器架构,使用原始的扩散模型。比如一个小图像会通过阶段性的学习超分模块,成为一个大图。当训练数据量非常大时,多阶段的超分学习方没有纠错能力,经常会出错。

 

因此达摩院在文本生成图像模型方面,进行创新,达摩院提出维度可变的扩散模型生成器,采取端到端学习的方式,不仅高效,而且有非常强的纠错能力。

 

image.png

 

接下来,举几个例子。上图中戴着毛绒绒帽子的树懒和彩色小鸟,是算法生成的虚假图片,并不是来自某个设计师。

 

image.png

 

上图中的人物极具真实感,很像照相机拍摄的效果。但这些都是是算法直接出图的效果。

 

image.png

 

除此之外,如上图所示,该模型还可以自动生成二次元的动漫风格。

 

image.png

 

上图中带有3D效果的动画场景,比如房子、街道、风景、人物等等,均是模型自动生成的。

 

image.png

 

与此同时,用户还可以基于模型,进行创意应用,比如创意广告的图片生成。如上图所示,系统可以将一个茶壶,放到一茶园、落日、瀑布等场景,非常自然地融入。

 

image.png

 

与此同时,达摩院对文本生成视频进行探索,相比文本生成图像,它的效果暂时没有那么真实。

 

文本生成视频的算法架构,是基于文生图预训练模型的视频生成架构。因此视频生成效果直接取决于,文本生成图像的基础能力。

 

image.png

 

目前,上述的文本生成模型均在ModelScope社区开源,大家可以登陆网址:https://decoder.modelscope.cn,或者通过手机扫描上方的二维码进行体验。

相关文章
|
1天前
|
人工智能 自然语言处理 机器人
Jina AI 发布中英和英德双语 8K 向量模型,魔搭社区开源最佳实践!
在 Jina Embeddings 英语向量模型突破百万下载后,今天,Jina AI正式开源了两款双语向量模型:中英双语(Chinese-English)和英德双语(English-German)向量模型,这也是全球首次推出支持 8K 双语文本的开源向量模型。
|
10月前
|
人工智能 自然语言处理 Linux
AI谱曲 | 基于RWKV的最佳开源AI作曲模型魔搭推理实践
AI谱曲 | 基于RWKV的最佳开源AI作曲模型魔搭推理实践
|
1天前
|
自然语言处理 Swift
千亿大模型来了!通义千问110B模型开源,魔搭社区推理、微调最佳实践
近期开源社区陆续出现了千亿参数规模以上的大模型,这些模型都在各项评测中取得杰出的成绩。今天,通义千问团队开源1100亿参数的Qwen1.5系列首个千亿参数模型Qwen1.5-110B,该模型在基础能力评估中与Meta-Llama3-70B相媲美,在Chat评估中表现出色,包括MT-Bench和AlpacaEval 2.0。
|
1天前
|
自然语言处理 算法 开发者
通义XR实验室文生3D模型开源,魔搭社区最佳实践来啦!
通义实验室XR实验室重磅开源文生3D新模型,能够从一句文本描述构建3D模型及对应纹理,目前已经在Github面向外界开源!与该项技术一起开源的,还有通义实验室推出的Text-to-ND(文本生成深度、法向图)、Text-to-ND-MV(文本生成多视角的深度、法向图)两个大模型。我们先来直观感受一下这两个大模型的魔法能力:
|
1天前
|
数据可视化 物联网 Swift
澜舟科技开源孟子3-13B大模型,魔搭社区推理训练最佳实践!
4月1日,澜舟科技宣布开源Mengzi3-13B大模型,对学术研究完全开放,同时支持免费商用。
|
1天前
|
人工智能 知识图谱 Windows
Mistral 7B v0.2 基础模型开源,魔搭社区微调教程和评测来啦!
Mistral AI在3月24日突然发布并开源了 Mistral 7B v0.2模型,有如下几个特点
|
1天前
|
人工智能 数据可视化 物联网
Mistral AI发布首个开源MoE模型,魔搭社区推理微调最佳实践来啦!
继Mistral 7B 后,Mistral AI 近日又放出一记大招——发布了引爆开源社区的首个 MoE 开源模型 Mixtral 8x7B,在 Apache 2.0?许可证下可商用。
|
7月前
|
人工智能 文字识别 开发者
CogVLM智谱AI 新一代多模态大模型发布,魔搭社区最佳实践体验!
继 5 月 18 日推出 VisualGLM-6B 后,智谱AI&清华KEG 潜心打磨,于近日发布并直接开源了更强大的多模态大模型——CogVLM-17B。模型已第一时间发布在魔搭社区,可体验!
|
9月前
|
编解码 人工智能 自然语言处理
通义千问开源第二波!多模态来啦!(内含魔搭最佳实践)
近期,通义千问大规模视觉语言模型Qwen-VL上线魔搭社区,Qwen-VL以通义千问70亿参数模型Qwen-7B为基座语言模型研发,支持图文输入,具备多模态信息理解能力。
|
12月前
|
机器学习/深度学习 人工智能 达摩院
http://www.vxiaotou.com