魔搭中文开源模型社区:模型即服务-ModelScope助力语音AI模型创新与应用(下)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 魔搭中文开源模型社区:模型即服务-

二、 ModelScope社区助力语音AI发展

 

达摩院语音实验室通过ModelScope社区,把过去积累的优秀算法开源,并开放了算法生产的模型。达摩院希望每个模型开发者都可以通过ModelScope社区,接触到达摩院的算法和预训练模型。

 

image.png

 

在ModelScope社区,模型开发者不但可以复原达摩院生产的预训练模型,而且可以在自己的数据领域,进行定制化开发。

 

image.png

 

目前,达摩院在ModelScope社区开放了五大领域的三十多个不同模型。包括语音识别、语音合成、语音唤醒、语音信号处理、口语语言处理领域。

 

image.png

 

用户可以在每个模型的详情页,看到详细的模型信息及模型效果。用户可以直接通过网页进行交互,直观体验语音识别跟语音合成的效果。

 

image.png

 

接下来,介绍一下达摩院创新的语音识别模型“Paraformer”。目前,主流语音识别模型是端到端的自回归模型。Paraformer模型在自回归模型的基础之上,大幅提升了推理时的效率,给予用户十倍的效能提升,降低模型的服务成本。

 

image.png

 

与此同时,阿里云线上Uni-ASR模型通过ModelScope社区,首次开放开源。阿里云希望行业应用者,研究机构的研究者可以在此基础上,产出比达摩院更好的模型。

 

image.png

 

除了中文模型,达摩院的新加坡实验室在ModelScope社区开放了很多其他语种的语言模型。

 

image.png

 

在语音合成方面,ModelScope社区开放了达摩院创新的语音合成声学模型SAMBERT,并且开放了达摩院预先训练好的音色,方便大家直接使用。当用户需要定制声音,只需要使用training pipeline,通过预训练模型加翻译的方式,自主定制自己喜欢的音色。

 

image.png

 

在语音唤醒方面,达摩院开放了语音唤醒词定制模型。用户只需要收集少量的唤醒词数据,就可以定制自己喜欢的唤醒词。

 

image.png

 

在信号处理方面,达摩院首批开放了降噪模型,回声消除模型。方便用户对语音进行降噪,回声消除等等。

 

image.png

 

在口语语言处理方面,达摩院开源开放了最新的口语长文本语言处理基础模型“PoNet”。PoNet主要用来处理口语长文本的篇章级内容,在运算效率跟理解能力上,优势突出。大家可以将PoNet模型,作为预训练模型使用。

 

image.png

 

如上图所示,ModelScope社区为AI模型开发者提供开箱即用的环境,大家只需点击右上角即可。

 

image.png

 

如上图所示,用户只需要两行代码,就能在服务器后端拉起模型,把模型加载到本地并运行。不同模态的模型都可以通过修改两行参数,直接获取。

 

目前,平台的三百多个模型都可以通过两行代码中的两个参数实现拉取。如果用户需要把模型部署到自己的云端,让云端服务进行推理。用户可以通过SDK直接实现。

 

image.png

 

除此之外,达摩院为AI模型开发者提供了,完整的工业级语音合成模型训练recipe。达摩院在ModelScope社区,将SAMBERT语音合成模型开源。

 

开发者可以基于达摩院ModelScope SAMBERT预训练模型及自有音库,实现完全自主语音合成模型训练。目前,更多其它各类模型训练recipe陆续开源中。

 

image.png

 

在应用,阿里云即将推出语音AI模型服务。当用户进入语音AI模型服务,只需语音模型,就能建立一个API服务。用户在享受模型高精度的同时,该服务是完全弹性的。让大家以更高精度、更低成本,使用模型API应用。

 

image.png

 

达摩院希望通过ModelScope社区,释放AI模型创新的原动力,通过阿里云语音AI模型服务,为用户提供一站式的API服务。ModelScope社区与AI创新者、应用者并肩携手,让语音AI技术产生更高价值。


 

 

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
当大火的文图生成模型遇见知识图谱,AI画像趋近于真实世界
本文介绍了阿里云机器学习PAI团队开发的名为ARTIST的中文文图生成模型,该模型融合了知识图谱信息,能够生成更加符合常识的图像。ARTIST基于Transformer架构,将文图生成任务分为图像矢量量化和文本引导的图像序列生成两个阶段。在第一阶段,模型使用VQGAN对图像进行矢量量化;在第二阶段,通过GPT模型并结合知识图谱中的实体知识来生成图像序列。在MUGE中文文图生成评测基准上,ARTIST表现出色,其生成效果优于其他模型。此外,EasyNLP框架提供了简单易用的接口,用户可以基于公开的Checkpoint进行少量领域相关的微调,实现各种艺术创作。
|
1天前
|
人工智能 NoSQL atlas
Fireworks AI和MongoDB:依托您的数据,借助优质模型,助力您开发高速AI应用
我们欣然宣布MongoDB与 Fireworks AI 正携手合作让客户能够利用生成式人工智能 (AI)更快速、更高效、更安全地开展创新活动
|
1天前
|
人工智能 前端开发 数据库
体验AI驱动的软件开发 | 普元低代码社区版使用
体验AI驱动的软件开发 | 普元低代码社区版使用
16 1
|
1天前
|
人工智能 vr&ar
[译][AI Research] AI 模型中的“it”是数据集
模型效果的好坏,最重要的是数据集,而不是架构,超参数,优化器。
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
大模型和传统ai的区别
在人工智能(AI)领域,大模型一直是一个热议的话题。从之前的谷歌 DeepMind、百度 Big. AI等,再到今天的百度GPT-3,人工智能技术经历了从“有”到“大”的转变。那么,大模型与传统 ai的区别在哪里?这对未来人工智能发展会产生什么影响?
|
1天前
|
人工智能 监控 安全
在园区引入AI大模型
5月更文挑战第5天
16 0
|
1天前
|
存储 机器学习/深度学习 人工智能
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
对大模型和AI的认识与思考
2023年,笔者也参与了各种学习和实践,从大语言模型、多模态算法,文生图(Stable Diffusion)技术,到prompt工程实践和搭建文生图(Stable Diffusion)webui实操环境。在此对谈谈对大模型和AI的认识与思考,是为总结。5月更文挑战第3天
31 1
|
1天前
|
自然语言处理
在ModelScope中,你可以通过设置模型的参数来控制输出的阈值
在ModelScope中,你可以通过设置模型的参数来控制输出的阈值
17 1
|
1天前
|
API 语音技术
ModelScope-FunASR**有支持热词又支持时间戳的模型**。
【2月更文挑战第30天】ModelScope-FunASR**有支持热词又支持时间戳的模型**。
35 2
http://www.vxiaotou.com