大模型服务平台百炼之模型训练与调优实践分享|快来围观~

简介: 模型调优是通过Fine-tuning训练模式提高模型效果的功能模块,作为重要的大模型效果优化方式,用户可以通过构建符合业务场景任务的训练集,调整参数训练模型,训练模型学习业务数据和业务逻辑,最终提高在业务场景中的模型效果。

2024年1月,在知乎课堂直播间中,阿里云-飞天实验室-技术负责人麒汀分享了大模型服务平台中模型训练与调优的实践分享。在直播中分别从三个方面介绍了模型训练:

1.构建一站式全链路模型训练的背景和现状

2.大模型训练基本理念与方法

3.大模型训练全过程和badcase分享

下面我们通过观看下方视频进一步探索模型训练里面的奥秘吧?~


常见问题

小编汇总了直播间中提到的问题及回答,请查看下方内容了解哦?

1、有没有安全方向的垂直模型?

答:目前没有安全方向的垂直模型,您可以先加入钉钉群:65295003032,持续关注产品动态。


2、完形填空词的数据能作为训练题吗?

答:可以的,可以通过上传训练集时,指定好问题内容及答案,引导大模型学习。


3、目前阿里云百炼只能训练文字吗?图片可以训练吗?

答:目前比较侧重于文字训练,多模态的模型比较聚焦,可以持续关注。


4、通义千问模型能不能只做推理,不做训练?

答:可以的,目前推理和训练是单独的模块,可以只使用推理服务。


5、使用高阶模型微调,低阶模型做能力下沉,是想做蒸馏吗?

答:您的描述对应于知识蒸馏技术,该技术通过微调高阶模型获取强大知识,然后将其转移至低阶模型,实现模型压缩与性能优化,使得低阶模型在保持小巧、高效的同时,获得接近或超越高阶模型的性能。


6、所谓大模型参数是怎么存储的?

答:可以通过魔搭下载模型,会有模型结构的json,可以参考json内容。一般情况下用开源的Python组件,去解析组件,会有向量信息,可能理解会有点难度。但是可以了解存储过程。


7、有一个需要解答数学问题的应用,需要什么样的模型?

答:可以尝试使用千问模型,在不同领域中开源了不少模型,比如code指的是编程的方向,可以去了解下是否能解决你的问题。


8、代码生成任务可以用什么指标来评估模型效果?

答:最直观的方式是执行代码。可能需要写一下编程验证。


9、语料数据集的多样性怎么定义?

答:语料数据集的多样性是指其在语言特征、内容主题、文本类型、写作风格、语言变体、作者背景、时间跨度等多个维度上体现出的丰富程度和差异性,旨在真实反映语言的实际使用情况,提升NLP模型的泛化能力和对多元应用场景的适应性。


10、有没有办法增加输入tokens的长度?

答:一般是模型厂商去做,个人做的话会有难度。


11、个人使用大模型时,qwen-turbo和qwen-max应该怎么选?

答:qwen-turbo注重速度与资源效率,适合对响应速度和部署便捷性有较高要求的场景;qwen-max则聚焦顶级性能与全面知识,适用于对模型精度和处理复杂任务能力有严格要求的环境。其中qwen-turbo的费用要比qwen-max低。根据您的具体需求和条件权衡,选择最适合自己的模型版本。也可以查看模型介绍:https://help.aliyun.com/document_detail/2713153.html了解具体差异。


12、模型训练中的自定义模型怎么上传?

答:模型调优中的自定义模型是指您已训练完成的模型,想要二次训练时,所选择的自定义模型。若是您自己在本地训练的模型不支持上传。


13、大模型的领域知识是微调还是预训练学来的?

答:通常是预训练的,微调是小部分。


14、训练完的开源模型是否支持导出?

答:目前不支持。


模型训练操作指南

通过视频学习了模型调优的概念、使用说明与相关最佳实践案例的指引。那让我们登录阿里云百炼控制台,小试牛刀一下!

一般来讲,模型调优有四个主要过程,包括:

  • 数据准备:构建适合训练的训练数据集,一般来是问答Pair的组合,基于不同任务有不同的呈现形态。
  • 模型调优:通过选择合适的数据集,调整参数,训练特定的模型以提高模型效果,可通过训练过程/结果指标初步判断训练效果。
  • 模型部署:训练好的模型需要部署后方可提供推理服务(评测、应用调用均需先部署模型)。
  • 模型评测:构建合适的评测数据集,针对已经训练好的模型进行评测,通过评测系统进行打分或标注,验证模型调优的效果。

第一步:数据准备

  1. 找到模型工具,选择训练数据,点击上传数据集,下载模板(数据集模板/评测集模板)并再上传数据内容,点击完成。上传完成后,在列表中查看对应的数据,用于模型训练。


  1. 点击评测集选择上传数据集,按照提示传入数据,点击完成。上传的评测集支持查看、下载、删除操作。

第二步:模型调优

新增训练模型

点击【模型调优】模块,选择【训练新模型】按照提示进行创建。新增过程的专业名词可查看概念解释学习。


选择模型版本

目前支持预置模型自定义模型,首次新增模型训练时无可选自定义模型。

如何选择模型tips:

微调训练模型可以支持企业自定义训练数据,完成模型的微调训练,微调训练将影响模型的效果,选择合适的数据将使得模型效果更加适配企业的业务需求。企业可以选择基于企业专属大模型的基线版本进行微调,也可以选择基于已微调的模型版本上进行进一步微调。

选择模型数据

点击【选择数据集】按照操作引导,跳转到【训练数据】页面上传数据内容,数据内容至少40条内容。支持xls、xlsl格式。需下载模板后进行上传。

注意:选择合适的训练数据进行微调训练,训练数据需要按照既定的格式, 包含 Prompt / Completion对, 详细格式请见格式参考:example.excel训练数据支持本地上传或选择训练集管理中的数据,此处上传的训练集将同时保存在训练集管理中。

混合训练

通用混合训练支持用户将自身训练数据与采样的千问基础模型通用多领域、多行业、多场景数据混合,进行训练,从而提高训练效果,避免基础模型能力的遗失,注意,选择混合训练后,混合采样的数据将计入训练Token数据量中,一并计费,平台支持选择多个基础训练数据进行混合训练。

示例:中文-对话 1.1倍 >> 自主训练数据:基础模型中文对话数据以1:1.1的比例混合训练

示例:中文-数学 0.5倍 >> 自主训练数据:基础模型中文数学数据以1:0.5的比例混合训练

超参配置

企业可以通过参数配置来影响模型调优的过程,从而影响模型调优的效果,不同的参数配置训练的结果不同,一般建议使用默认配置。

自定义参数名词解释参考概念解释

开始训练

预览你的训练配置,准备开始训练,开始训练将进入队列,可在模型管理列表刷新状态,同时,可查看训练过程中的相关指标,训练结束后将通过推送通知。

重要

模型调优将产生训练费用,训练价格 0.1元/千tokens ,点击查看产品计费

计算公式:

计费token数= 训练集token数 * 循环次数。

模型调优开始后,就会产生费用(训练失败除外)。

模型列表

当正在训练中时,可以操作查看、终止训练。若训练完成后,可操作删除训练任务。

查看:可以查看正在训练中的模型信息;也可以在页面中点击【开始部署】 Traning loss、Validation Loss、Validation Token Accuracy 的名词解释请滑到下方段落查看。可以点击终止训练和刷新训练进展。

终止训练:将停止训练任务。状态为终止训练。

删除:点击删除后该模型将不会存在;谨慎操作。

模型部署:点击模型部署后,点击开始部署,模型部署内容请访问模型部署进行查看。


注意:部署模型将产生模型部署费用,部署价格产品计费。模型开始部署后,就会产生费用(部署失败除外)。


第三步:模型部署

注意:部署模型将产生模型部署费用,部署价格点击查看产品计费。模型部署成功后,系统将开始计费,手动下线后模型将不再计费(部署失败除外),不同状态下计费逻辑请参考文章最后的表格。


路径:模型中心-模型部署-部署新模型

点击【部署新模型】后--选择合适的模型进行部署

  • 自定义模型:由用户自己进行SFT训练得到的模型,部署后可提供模型服务,首次部署没有可选自定义模型。
  • 预置模型:未经训练,系统提供的预置基础大模型,直接部署基础模型提供服务。

点击【下一步】选择对应的资源配置

  • 包月资源:选择已购买的包月预付费资源组,不同的模型所需要的资源不同,选择模型后,系统将自动筛选需要的资源类型,预付费资源按月售卖,性价比更高
  • 按量付费:选择后付费的模式,即刻完成部署,系统将在部署成功后开始计费,付费模式更加动态,无到期时间,随时上下线。

最后点击【开始部署】等待状态更新为部署成功。

系统将弹窗告知部署所需的费用,点击确认后,系统将开始部署,部署成功后开始收费

部署完成后,模型运行态将变更为运行中,可以操作查看、扩缩容、下线。部署失败支持重新部署,各操作说明如下:

  • 查看:查看模型部署的详情,包括资源、模型类型等。
  • 重新部署:部署失败后,可点击重新部署重启部署任务,完成部署任务。
  • 扩缩容:变配资源配置,可增加资源或减少资源,变更成功后,系统将按变更后实际使用的资源计费。
  • 下线:可将部署中的任务下线,下线后该任务将会自动删除。
  • 删除:部署失败、欠费下线后,可删除模型,删除后不再计费。

状态

操作

计费情况

部署中

查看

此状态不计费

运行中

查看、扩缩容、下线

此状态持续计费,点击下线后部署任务消失,停止计费

欠费停服

查看、删除

此状态不计费,欠费状态不会持续计费,但充值后,模型将恢复服务,自动恢复后将开始计费,点击删除后部署任务消失,不再计费

欠费恢复中

查看

此状态不计费,表示账户已充值,系统自动恢复服务中,服务恢复后,状态变换为运行中将恢复计费

部署失败

查看、删除、重新部署

此状态不计费,重新部署成功后变为运行中状态将进行计费,点击删除后部署任务消失,不再计费


第四步:模型评测

通过模型评测,来检验训练出来的模型是否能够给出自己所期望的结果。

完成模型部署后,如需测试模型的效果,可在模型评测中进行评测,模型评测需要首先构建评测的数据集,构建方法类似于训练集的构建,数据格式同样是问答Pair对,对于Prompt而言往往是需要验证的问题,对于Completion而言往往是评测参考的答案,最终通过对比模型结果与参考答案,同时综合考虑模型结果的正确性,对模型结果进行打分或排序,得到模型真实效果。

模型评测有两种模式,解释如下:

评测方式

评测效果

单个评测

单个评测主要用来评测单一模型的效果,选择评测集后,平台将自动基于评测集中的Prompt预测模型结果,并且同时展示评测集中预置的评测结果作为参考,针对模型预测结果进行打分后,可判断模型效果。

对比评测

对比评测主要用来评测多个模型的效果,选择评测集后,平台将自动基于评测集中的Prompt预测每个模型的结果,并且同时展示评测集中预置的评测结果作为参考,对比评测支持针对每个参与评测的模型进行打分,同时支持模型排序,通过评测结果可判断不同模型之间的效果差异

注意,对于对比评测而言,进行对比的每个微调模型均需独立部署方可进行评测,针对基础模型的评测将计量token调用费用,详情请见产品价格详情。

一般训练或部署了单个模型的情况下,我们会进行单个评测,如果我们训练或部署了多个模型,希望对比不同模型的效果,则可选择对比评测模式进行评测。

操作示例

路径:模型工具--模型评测--创建评测任务。

选择评测方式,页面上方有不同评测方式介绍,按需选择,建议选择单个评测。

评测任务开始后,点击评测,可以自行对数据进行打标。

评测完成后可以点击下载查看评测结果。

模型评测会产生模型服务调用费用,每个被评测的模型均会进行计费,计费逻辑与模型推理服务一致,按照token量进行计费。


以上就是模型调优&部署并测评的全部内容啦~ 您在体验过程中是否有遇到什么问题需要我们解答?欢迎在评论区中留言探讨!







相关文章
|
6天前
|
机器学习/深度学习 数据采集 自然语言处理
构建高效机器学习模型的策略与实践
【4月更文挑战第30天】 在数据驱动的时代,机器学习(ML)作为一项核心技术,其应用范围和影响力日益扩大。然而,构建一个既高效又准确的机器学习模型并非易事。本文将探讨一系列实用的策略和技术,用于优化机器学习的工作流程,包括数据预处理、特征工程、模型选择、超参数调优以及模型评估等方面。通过这些策略,读者可以提升模型的性能,确保在实际应用中达到预期的准确度和效率。
|
6天前
|
机器学习/深度学习 算法 数据挖掘
利用机器学习优化数据中心能效的策略与实践
【5月更文挑战第13天】 在数据中心管理和运营的众多挑战中,能源效率优化是降低运营成本和减少环境影响的关键因素。本文旨在探讨如何应用机器学习技术来提高数据中心的能效,通过智能化的数据分析和资源管理达到节能的目的。与传统的摘要不同,本文将直接深入探讨所采用的技术手段、实施步骤以及预期效果,为读者提供一种新颖的视角。
13 4
|
4天前
|
机器学习/深度学习 数据采集 监控
构建高效机器学习模型的策略与实践
【5月更文挑战第17天】 在当今数据驱动的时代,机器学习(ML)模型的效能成为衡量技术创新和解决实际问题能力的重要指标。本文旨在探讨构建高效机器学习模型的先进策略,并通过具体实践案例来揭示这些方法的有效性。我们将从数据处理、特征工程、模型选择、调参技巧以及模型部署等方面详细论述,旨在为读者提供一个全面而深入的视角,帮助其优化现有模型或开发新模型,以应对复杂多变的业务挑战。
11 2
|
5天前
|
机器学习/深度学习 运维 算法
利用机器学习进行异常检测的技术实践
【5月更文挑战第16天】本文探讨了利用机器学习进行异常检测的技术实践,强调了在大数据时代异常检测的重要性。机器学习通过无监督、有监督和半监督学习方法自动识别异常,常见算法包括KNN、LOF、K-means和GMM等。异常检测流程包括数据准备、特征工程、选择算法、训练模型、评估优化及部署。机器学习为异常检测提供了灵活性和准确性,但需结合具体问题选择合适方法。
|
6天前
|
机器学习/深度学习 自然语言处理 监控
利用机器学习进行情感分析:技术详解与实践
【5月更文挑战第13天】本文探讨了利用机器学习进行情感分析的方法,包括技术原理、常用算法和实践应用。情感分析涉及文本预处理(如清洗、分词和去除停用词)、特征提取(如词袋模型、TF-IDF和Word2Vec)及分类器训练(如朴素贝叶斯、SVM和RNN/LSTM)。常见情感分析算法有朴素贝叶斯、支持向量机和深度学习模型。实践中,情感分析应用于社交媒体监控、产品评论分析等领域。通过本文,读者可了解情感分析的基础知识及其应用价值。
|
6天前
|
机器学习/深度学习 算法 异构计算
构建高效机器学习模型的策略与实践
【5月更文挑战第8天】 随着数据科学领域的不断进步,机器学习(ML)已成为解决复杂问题的重要工具。然而,构建一个既高效又准确的ML模型并非易事。本文将详细探讨在设计和训练机器学习模型时可以采用的一系列策略,以优化其性能和效率。我们将讨论特征工程的重要性、选择合适的算法、调整参数以及评估模型的有效性。通过这些策略,读者将能够更好地理解如何提升模型的预测能力并避免常见的陷阱。
|
6天前
|
机器学习/深度学习 人工智能 算法
【Python 机器学习专栏】强化学习在游戏 AI 中的实践
【4月更文挑战第30天】强化学习在游戏AI中展现巨大潜力,通过与环境交互和奖励信号学习最优策略。适应性强,能自主探索,挖掘出惊人策略。应用包括策略、动作和竞速游戏,如AlphaGo。Python是实现强化学习的常用工具。尽管面临训练时间长和环境复杂性等挑战,但未来强化学习将与其他技术融合,推动游戏AI发展,创造更智能的游戏体验。
|
6天前
|
机器学习/深度学习 算法 Python
【Python机器学习专栏】机器学习中的超参数调优技术
【4月更文挑战第30天】本文探讨了机器学习中超参数调优的重要性,介绍了网格搜索、随机搜索、贝叶斯优化和AutoML等调优方法,并提供了Python中使用`scikit-learn`进行网格搜索的示例。超参数的选择直接影响模型学习和泛化能力,而调优技术能帮助找到最佳组合,提升模型性能。随着AutoML的发展,自动化调参将成为更高效的选择。
|
6天前
|
机器学习/深度学习 运维 算法
【Python机器学习专栏】异常检测算法在Python中的实践
【4月更文挑战第30天】本文介绍了异常检测的重要性和在不同领域的应用,如欺诈检测和网络安全。文章概述了四种常见异常检测算法:基于统计、距离、密度和模型的方法。在Python实践中,使用scikit-learn库展示了如何实现这些算法,包括正态分布拟合、K-means聚类、局部异常因子(LOF)和孤立森林(Isolation Forest)。通过计算概率密度、距离、LOF值和数据点的平均路径长度来识别异常值。
|
6天前
|
机器学习/深度学习 数据采集 算法
【Python机器学习专栏】支持向量机(SVM)在Python中的实践
【4月更文挑战第30天】SVM是一种高效的监督学习算法,适用于分类和回归,尤其擅长处理高维和非线性问题。通过寻找最大边际超平面来分隔数据,SVM具有高效性、鲁棒性、灵活性和稀疏性等特点。

热门文章

最新文章

http://www.vxiaotou.com