魔搭中文开源模型社区：模型即服务-达摩院通义视觉生成大模型（上）-阿里云开发者社区

魔搭中文开源模型社区：模型即服务-达摩院通义视觉生成大模型（上）

2023-05-23 837

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 魔搭中文开源模型社区：模型即服务-

作者：赵德丽，达摩院基础视觉实验室负责人

目前，AI发展呈现三个方向。第一，深耕产业化。比如自动驾驶、智慧医疗、智慧农业等等。第二，构建平台。比如Hugging、Face、ModelScope等等。第三，人工智能基础设施AI system。比如谷歌提出的Pathways概念，一个基础设施能解决千万个问题。

AI system必须可开发、可维护、可迭代、可扩展。因此，AI system的底层架构必须是统一的技术架构。

接下来，讲一讲AI的多模态生成。主要基于多模态学习，即一种机器学习的范式转移。它的意义非常深远，图像标注从单一标签到语言描述的使用方式变化，改变了AI领域数据获取和使用的方式，直接带来了算法的新范式，也就是多模态学习。

如上图所示，传统的图像学习，只能对图片主体进行描述，比如“豹子”。多模态学习可以对图片用一句话进行描述。比如“一只褐色的豹子，站在草地上望着远方”。这句话包含了图像里主体的数量、动作、环境、属性等等，它的语义变得更加丰富。

目前，多模态学习分为两大方向。一个是多模态表征学习，提炼图像特征，进行图像描述。另一个是生成模型，系统通过一句话的描述，生成一个与语言描述相符的图片。

达摩院的知识重组大模型训练，在训练方式上进行了创新。达摩院把数据以经验知识为结构，进行分类重组。然后，从先验知识的分组中采样，输入基础模型训练。达摩院的统一大模型是“数据+知识”双驱动的智能结构。

由于达摩院的训练模型直接从数据库里采样，采样图像直接输入模型并训练，然后进行模型部署。因此，知识重组训练方式相比传统的训练方式更加直观，更加简单。

如果基于知识重组的概念，系统把它当成一个语义相似的类别，这个类别中包含了很多的动作或表情，比如惊讶。因此，系统会构造出很多的知识类别，相比传统方式更具有相关性。

在训练大模型时，系统以Knowledge Group为单位进行训练，它的收敛速度、优化结果都有显著提高。数据量越大，效果越明显。

魔搭中文开源模型社区：模型即服务-达摩院通义视觉生成大模型（上）