魔搭中文开源模型社区：模型即服务-达摩院通义视觉生成大模型（下）-阿里云开发者社区

魔搭中文开源模型社区：模型即服务-达摩院通义视觉生成大模型（下）

2023-05-23 802

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 魔搭中文开源模型社区：模型即服务-达摩院通义视觉生成大模型

接下来，讲一讲维度可变的扩散模型，这是目前效果最好的一种生成模型范式。

传统的生成器架构，使用原始的扩散模型。比如一个小图像会通过阶段性的学习超分模块，成为一个大图。当训练数据量非常大时，多阶段的超分学习方没有纠错能力，经常会出错。

因此达摩院在文本生成图像模型方面，进行创新，达摩院提出维度可变的扩散模型生成器，采取端到端学习的方式，不仅高效，而且有非常强的纠错能力。

接下来，举几个例子。上图中戴着毛绒绒帽子的树懒和彩色小鸟，是算法生成的虚假图片，并不是来自某个设计师。

上图中的人物极具真实感，很像照相机拍摄的效果。但这些都是是算法直接出图的效果。

除此之外，如上图所示，该模型还可以自动生成二次元的动漫风格。

上图中带有3D效果的动画场景，比如房子、街道、风景、人物等等，均是模型自动生成的。

与此同时，用户还可以基于模型，进行创意应用，比如创意广告的图片生成。如上图所示，系统可以将一个茶壶，放到一茶园、落日、瀑布等场景，非常自然地融入。

与此同时，达摩院对文本生成视频进行探索，相比文本生成图像，它的效果暂时没有那么真实。

文本生成视频的算法架构，是基于文生图预训练模型的视频生成架构。因此视频生成效果直接取决于，文本生成图像的基础能力。

目前，上述的文本生成模型均在ModelScope社区开源，大家可以登陆网址：https://decoder.modelscope.cn，或者通过手机扫描上方的二维码进行体验。

魔搭中文开源模型社区：模型即服务-达摩院通义视觉生成大模型（下）