魔搭中文开源模型社区:模型即服务-ModelScope助力语音AI模型创新与应用(上)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
简介: 魔搭中文开源模型社区:模型即服务-

 

作者:鄢志杰(智捷)阿里巴巴达摩院语音实验室负责人

 

一、 语音AI的发展

 

image.png

 

当大家回顾语音技术的发展史时,可以清晰地发现,语音技术一直在突破与迭代,并逐渐走进每一个人的日常生活。

 

在语音技术发展初期,它只能识别孤立的字词,渐渐地它开始识别人们说出的句子。

 

随着移动互联网的发展,手机逐渐深入大家的生活。语音技术通过交互方式,在手机上与大家进行对话。随着Google Voice Search的出现,人们可以通过手机语音进行搜索或输入。

 

随着信号处理技术和深度学习技术的发展,大家可以在一定距离外,操控天猫精灵音箱等设备,获取互联网内容。

 

近年来,以阿里小蜜电话机器人为首的电话客服类型机器人,可以用非常自然的语音交互来跟大家对话。随着疫情开始,远程的音视频会议越来越多。达摩院推出了产品“听悟”,跟钉钉、闪记等音视频会议场景的AI进行联动。

 

image.png

 

在未来,AI仍需加速转动创新与应用的飞轮。一方面通过持续的算法创新,不断精进应用技术。另外一方面,把成功的应用技术尽快在各行各业落地,从而反哺算法技术。

 

image.png

 

达摩院ModelScope社区希望将创新跟应用紧密连接,推动AI研究与应用技术的不断发展。

 


相关文章
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
当大火的文图生成模型遇见知识图谱,AI画像趋近于真实世界
本文介绍了阿里云机器学习PAI团队开发的名为ARTIST的中文文图生成模型,该模型融合了知识图谱信息,能够生成更加符合常识的图像。ARTIST基于Transformer架构,将文图生成任务分为图像矢量量化和文本引导的图像序列生成两个阶段。在第一阶段,模型使用VQGAN对图像进行矢量量化;在第二阶段,通过GPT模型并结合知识图谱中的实体知识来生成图像序列。在MUGE中文文图生成评测基准上,ARTIST表现出色,其生成效果优于其他模型。此外,EasyNLP框架提供了简单易用的接口,用户可以基于公开的Checkpoint进行少量领域相关的微调,实现各种艺术创作。
|
1天前
|
人工智能 NoSQL atlas
Fireworks AI和MongoDB:依托您的数据,借助优质模型,助力您开发高速AI应用
我们欣然宣布MongoDB与 Fireworks AI 正携手合作让客户能够利用生成式人工智能 (AI)更快速、更高效、更安全地开展创新活动
|
1天前
|
人工智能 vr&ar
[译][AI Research] AI 模型中的“it”是数据集
模型效果的好坏,最重要的是数据集,而不是架构,超参数,优化器。
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
大模型和传统ai的区别
在人工智能(AI)领域,大模型一直是一个热议的话题。从之前的谷歌 DeepMind、百度 Big. AI等,再到今天的百度GPT-3,人工智能技术经历了从“有”到“大”的转变。那么,大模型与传统 ai的区别在哪里?这对未来人工智能发展会产生什么影响?
|
1天前
|
人工智能 监控 安全
在园区引入AI大模型
5月更文挑战第5天
16 0
|
1天前
|
存储 机器学习/深度学习 人工智能
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
RAG:AI大模型联合向量数据库和 Llama-index,助力检索增强生成技术
|
1天前
|
机器学习/深度学习 人工智能 自然语言处理
对大模型和AI的认识与思考
2023年,笔者也参与了各种学习和实践,从大语言模型、多模态算法,文生图(Stable Diffusion)技术,到prompt工程实践和搭建文生图(Stable Diffusion)webui实操环境。在此对谈谈对大模型和AI的认识与思考,是为总结。5月更文挑战第3天
31 1
|
1天前
|
机器学习/深度学习 人工智能
超越Sora极限,120秒超长AI视频模型诞生!
【5月更文挑战第1天】 StreamingT2V技术突破AI视频生成界限,实现120秒超长连贯视频,超越Sora等传统模型。采用自回归方法,结合短期记忆的条件注意模块和长期记忆的外观保持模块,保证内容连贯性和动态性。在实际应用中,展示出优秀的动态性、连贯性和图像质量,但仍有优化空间,如处理复杂场景变化和连续性问题。[链接](https://arxiv.org/abs/2403.14773)
31 3
|
1天前
|
人工智能 前端开发 算法
参加完全球开发者大会之后,我一个小前端尝试使用了一些AI模型
参加完全球开发者大会之后,我一个小前端尝试使用了一些AI模型
|
1天前
|
人工智能 数据安全/隐私保护
Sora超逼真视频引恐慌!Nature刊文警示AI视频模型,或在2024年颠覆科学和社会
【4月更文挑战第27天】OpenAI公司的新型AI工具Sora能根据文字提示生成超逼真视频,引发关注。尽管已有类似产品,如Runway的Gen-2和谷歌的Lumiere,Sora以其高质量生成效果领先。该技术的进步可能导致2024年全球政治格局的颠覆,同时带来虚假信息的挑战。OpenAI已组建“红队”评估风险,但虚假视频识别仍是难题。尽管有水印解决方案,其有效性尚不确定。Sora在教育、医疗和科研等领域有潜力,但也对创意产业构成威胁。
27 2
http://www.vxiaotou.com