备案控制台

开发者社区 ModelScope模型即服务文章正文

魔搭中文开源模型社区：模型即服务-ModelScope助力语音AI模型创新与应用（上）

2023-05-23 929

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

交互式建模 PAI-DSW，5000CU*H 3个月

简介： 魔搭中文开源模型社区：模型即服务-

作者：鄢志杰（智捷），阿里巴巴达摩院语音实验室负责人

一、语音AI的发展

当大家回顾语音技术的发展史时，可以清晰地发现，语音技术一直在突破与迭代，并逐渐走进每一个人的日常生活。

在语音技术发展初期，它只能识别孤立的字词，渐渐地它开始识别人们说出的句子。

随着移动互联网的发展，手机逐渐深入大家的生活。语音技术通过交互方式，在手机上与大家进行对话。随着Google Voice Search的出现，人们可以通过手机语音进行搜索或输入。

随着信号处理技术和深度学习技术的发展，大家可以在一定距离外，操控天猫精灵音箱等设备，获取互联网内容。

近年来，以阿里小蜜电话机器人为首的电话客服类型机器人，可以用非常自然的语音交互来跟大家对话。随着疫情开始，远程的音视频会议越来越多。达摩院推出了产品“听悟”，跟钉钉、闪记等音视频会议场景的AI进行联动。

在未来，AI仍需加速转动创新与应用的飞轮。一方面通过持续的算法创新，不断精进应用技术。另外一方面，把成功的应用技术尽快在各行各业落地，从而反哺算法技术。

达摩院ModelScope社区希望将创新跟应用紧密连接，推动AI研究与应用技术的不断发展。

文章标签：

语音技术

自然语言处理

机器学习/深度学习

人工智能

机器人

达摩院

算法

关键词：

AI modelscope

AI服务

AI语音

modelscope模型

AI模型

-开发达人-

目录

相关文章

阿里开发者

|

1天前

|

机器学习/深度学习人工智能自然语言处理

当大火的文图生成模型遇见知识图谱，AI画像趋近于真实世界

本文介绍了阿里云机器学习PAI团队开发的名为ARTIST的中文文图生成模型，该模型融合了知识图谱信息，能够生成更加符合常识的图像。ARTIST基于Transformer架构，将文图生成任务分为图像矢量量化和文本引导的图像序列生成两个阶段。在第一阶段，模型使用VQGAN对图像进行矢量量化；在第二阶段，通过GPT模型并结合知识图谱中的实体知识来生成图像序列。在MUGE中文文图生成评测基准上，ARTIST表现出色，其生成效果优于其他模型。此外，EasyNLP框架提供了简单易用的接口，用户可以基于公开的Checkpoint进行少量领域相关的微调，实现各种艺术创作。

阿里开发者

53 0 0

MongoDB小助手

|

1天前

|

人工智能 NoSQL atlas

Fireworks AI和MongoDB：依托您的数据，借助优质模型，助力您开发高速AI应用

我们欣然宣布MongoDB与 Fireworks AI 正携手合作让客户能够利用生成式人工智能 (AI)更快速、更高效、更安全地开展创新活动

MongoDB小助手

12 1 1

1808090903196729

|

1天前

|

人工智能 vr&ar

[译][AI Research] AI 模型中的“it”是数据集

模型效果的好坏，最重要的是数据集，而不是架构，超参数，优化器。

1808090903196729

11 0 0

悦数图数据库

|

1天前

|

机器学习/深度学习人工智能自然语言处理

大模型和传统ai的区别

在人工智能（AI）领域，大模型一直是一个热议的话题。从之前的谷歌 DeepMind、百度 Big. AI等，再到今天的百度GPT-3,人工智能技术经历了从“有”到“大”的转变。那么，大模型与传统 ai的区别在哪里？这对未来人工智能发展会产生什么影响？

悦数图数据库

20 0 0

WIFI码密

|

1天前

|

人工智能监控安全

在园区引入AI大模型

5月更文挑战第5天

WIFI码密

16 0 0

汀丶人工智能

|

1天前

|

存储机器学习/深度学习人工智能

RAG：AI大模型联合向量数据库和 Llama-index，助力检索增强生成技术

RAG：AI大模型联合向量数据库和 Llama-index，助力检索增强生成技术

汀丶人工智能

97 8 8

RAG：AI大模型联合向量数据库和 Llama-index，助力检索增强生成技术

AIweker

|

1天前

|

机器学习/深度学习人工智能自然语言处理

对大模型和AI的认识与思考

2023年，笔者也参与了各种学习和实践，从大语言模型、多模态算法，文生图（Stable Diffusion）技术，到prompt工程实践和搭建文生图（Stable Diffusion）webui实操环境。在此对谈谈对大模型和AI的认识与思考，是为总结。5月更文挑战第3天

AIweker

31 1 1

楠竹11

|

1天前

|

机器学习/深度学习人工智能

超越Sora极限，120秒超长AI视频模型诞生！

【5月更文挑战第1天】 StreamingT2V技术突破AI视频生成界限，实现120秒超长连贯视频，超越Sora等传统模型。采用自回归方法，结合短期记忆的条件注意模块和长期记忆的外观保持模块，保证内容连贯性和动态性。在实际应用中，展示出优秀的动态性、连贯性和图像质量，但仍有优化空间，如处理复杂场景变化和连续性问题。[链接](https://arxiv.org/abs/2403.14773)

楠竹11

31 3 3

可乐鸡翅kele

|

1天前

|

人工智能前端开发算法

参加完全球开发者大会之后，我一个小前端尝试使用了一些AI模型

参加完全球开发者大会之后，我一个小前端尝试使用了一些AI模型

可乐鸡翅kele

22 0 0

楠竹11

|

1天前

|

人工智能数据安全/隐私保护

Sora超逼真视频引恐慌！Nature刊文警示AI视频模型，或在2024年颠覆科学和社会

【4月更文挑战第27天】OpenAI公司的新型AI工具Sora能根据文字提示生成超逼真视频，引发关注。尽管已有类似产品，如Runway的Gen-2和谷歌的Lumiere，Sora以其高质量生成效果领先。该技术的进步可能导致2024年全球政治格局的颠覆，同时带来虚假信息的挑战。OpenAI已组建“红队”评估风险，但虚假视频识别仍是难题。尽管有水印解决方案，其有效性尚不确定。Sora在教育、医疗和科研等领域有潜力，但也对创意产业构成威胁。

楠竹11

27 2 2

ModelScope模型即服务

热门文章

最新文章

阿里云通义千问向全社会开放！

Llama 3开源！魔搭社区手把手带你推理，部署，微调和评估

千亿大模型来了！通义千问110B模型开源，魔搭社区推理、微调最佳实践

Qwen1.5开源！魔搭最佳实践来啦！

vanna+qwen实现私有模型的SQL转换

LLM 大模型学习必知必会系列(一)：大模型基础知识篇

ChatGPT中文版杀疯了,已登录AI模型市场

Qwen1.5-MoE开源，魔搭社区推理训练最佳实践教程来啦

ModelScope--人像卡通化、人像美肤

Llama3 中文通用Agent微调模型来啦！（附手把手微调实战教程）

【LangChain系列】第一篇：文档加载简介及实践

智能体-Agent能力升级！新增Assistant API & Tools API服务接口

联合XTuner，魔搭社区全面支持数据集的长文本训练

【AIGC】通过人工智能总结PDF文档摘要服务的构建

零一万物Yi-1.5系列模型发布并开源！34B/9B/6B 多尺寸魔搭社区推理微调最佳实践教程来啦！

【AIGC】LangChain Agent（代理）技术分析与实践

NPU推理&微调大模型实战

RAG：AI大模型联合向量数据库和 Llama-index，助力检索增强生成技术

LISA微调技术解析：比LoRA更低的显存更快的速度

相关课程

更多

【科技少年】AI领航员探索教程（赛前训练）

达摩院视觉AI精品课

AI开发者的Docker实践

AI社区开源学习实践

趣味视觉AI应用入门与实战

AI数学基础

相关电子书

更多

释放算力潜能，加速 AI 应用构建

网易游戏机器学习云平台助力AI应用落地实践

智算时代，基于 ACK 落地云原生AI

相关实验场景

更多

如何快速体验通义大模型

函数计算部署AI艺术字应用，生成新春文字头像

使用函数计算部署通义千问大模型实现AI对话

基于Hologres+PAI+计算巢，5分钟搭建企业级AI问答知识库

基于通义千问X函数计算部署AI助手

基于阿里云DeepGPU实例，让AI带你畅玩杭州

下一篇

2024年阿里云免费云服务器及学生云服务器申请教程参考