贡嘎平台,即Model-Cloud,是晓多打造的AI模型生产和运营平台,旨在提供全新的AI策略模型开发协作模式。平台将传统依赖算法工程师的AI策略模型开发模式转变为以业务人员为核心的模式。平台涵盖数据预处理、数据标注、模型训练与评估、发布上线、badcase运营等业务策略模型全生命周期的各个环节,并提供全程可视化操作。
一、贡嘎平台AI模型生产和运营核心功能有哪些?
平台主要围绕模型训练、模型评估、和badcase优化、prompt评估四大模块进行功能拆分:
- 模型训练:
平台支持五类模型的微调训练,包括分类模型、匹配模型、大语言模型、嵌入模型和关键词提取模型。训练资源方面,平台支持超算DCU和英伟达GPU,大大扩展了算力资源。
- 模型评估:
平台支持四类模型的评估,包括分类模型、匹配模型、大语言模型和嵌入模型。模型微调后,可直接在平台上进行评估。当模型的相关指标(如F1、准确率等)达到业务要求时,可直接在平台上部署API或提交上线审核,将模型发布到生产环境。
- badcase优化:
平台提供统一的badcase接入消息流。业务方按照格式接入badcase后,平台能自动采集这些badcase,并支持对badcase进行AI扩写。经过人工审核后,将其加入训练集以优化模型。当优化指标(如净变好率、diff值等)达到上线要求时,通过模型发布功能一键更新线上模型,实现模型的无感切换。此过程不仅实现了模型生命周期的管理,也真正实现了数据飞轮和闭环。
- prompt评估:
为了解决Prompt效果评估的问题,当功能缺失时,业务人员需线下编写Prompt并交由研发工程师开发脚本,进行批量测试并生成数据。然而,修改Prompt后,常常直接覆盖之前用于评测的版本,导致缺乏有效的版本管理。随着时间推移,无法追溯评测时使用的Prompt,影响效果对比分析。
可以从贡嘎系统架构图看出上述几大功能的关联:
二、贡嘎平台操作流程
操作流程主要包括六个步骤,帮助没有AI模型基础的工作人员训练出专属AI大模型。
1. 确实业务问题,选择合适模型
例子:
- 一句话是不是骂人
- 一个会话session是售前还是售后状态
- 一个消费者q消息属不属于某种语义场景
- 计算一个商品的折扣价
- 一段数字是否是手机号
- 根据一张图片生成一段对应的描述
- 将一段话或文章总结出一段核心主题句子或片段
将业务问题输入,系统会判断能否用模型的方法解决,用哪种模型类型来解决:
序号 | case | 适合单模型解决 | 模型类型 | 备注 |
1 | 一句话是不是骂人 | 是 | 分类模型 | 支持 |
2 | 一个会话session是售前还是售后状态 | 是 | 分类模型 | 支持 |
3 | 一个消费者q消息属不属于某种语义场景 | 是 | 分类|匹配模型 | 支持 |
4 | 计算一个商品的折扣价 | 否 | – | 逻辑计算 |
5 | 一段数字是否是手机号 | 否 | – | 规则识别 |
6 | 根据一张图片生成一段对应的描述 | 是 | 图生文-多模态 | 待支持 |
6 | 将一段话或文章总结出一段核心主题句子或片段 | 是 | 生成|抽取类模型 | 部分支持 |
一个具体的业务问题,从具体的case来看,如果属于一个判断型的问题,并且我们人的思考可以很快(几秒钟)的得到结果,那么大概率是能够用常规的模型来解决的(分类、匹配等)。
以情绪识别为例,输入一段话,需要判断用户情绪。那么这个时候使用分类模型就能解决问题。
2. 数据准备
以情绪识别为例,需要准备如下格式的数据:
label | msg |
1 | 价格比比较不错的酒店。这次免费升级了,感谢前台服务员。房子还好,地毯是新的,比上次的好些。早餐的人很多要早去些。 |
1 | 商务大床房,房间很大,床有2M宽,整体感觉经济实惠不错! |
1 | 早餐很丰富,服务也热情,早上很早退房时,前台值此人员办理手续也非常快. |
1 | 前台楼层服务员都不错,房间安静整洁,交通方便,吃的周围也挺多 |
0 | 老酒店,设施都很旧很简单,只住一晚所以将就了;交通倒挺便利的,房间整体感觉有点脏,应该是因为旧的原因.下次再去换另外一家,不想去住了,没什么值得留恋的.网线也没有. |
0 | 环境不太好,比较脏,基本没有什么服务。 |
0 | 泰达商务酒店的价格比较吸引人房间硬件不错,洗手间也很好。网速比较慢位置很好,在城关区周边的环境太差了。一边是马路,很多卡车。一边是铁路,很多火车。夜里的噪音很大,很难入睡 |
0 | 洒店总体规模较小。入住时,房内卫生没做!解释服务员少,来不及,我是晚七点入住的!入住后没注意,到晚十点多才发现没网络,与总台联系不能解决,态度不好,还要客人事先声明要有网络的房间!不给调房。与携程联系后给调了一间有网络的。房间较小,卫生间下水道装修有问题,有回味!补充点评2007年12月14日:网带特慢,一晚上打开不几个网页,网络形同虚设,办不了事。 |
数据准备完成后,在系统里面新建一个数据集,将数据导入数据集,具体操作如下:
3. 模型训练
常规分类模型
在模型训练中选择分类模型,会指定一个基座模型进行训练,训练过程中能能查到训练进度。
训练完成后,系统会通过消息通知到训练人。
同时也会在系统中显示模型训练在验证集上的效果。
模型训练完成后,可以通过发布API,直接进行模型体验。
发布API,可以点击校验按钮,进行模型对话体验。
对于模型预测错误的,可以点踩,数据会自动同步到badcase模块。后续通过badcase优化进行模型训练后修复badcase。
贡嘎支持三种rag模型的微调:
- Bert-base-chinese
- Gte-large-zh
- bge-base-v1.5-zh
Recall
数据集格式:
query | content | tag |
我一看箱体损坏我就没有签收哦 | 收到的商品有某种问题 | 1 |
我一看箱体损坏我就没有签收哦 | 收到商品少件 | 0 |
又是坏的 | 收到的商品有某种问题 | 1 |
又是坏的 | 骂人语句 | 0 |
出现抽空后不能自动封口问题 | 收到的商品有某种问题 | 1 |
出现抽空后不能自动封口问题 | 买家表示某地已解封 | 0 |
还是你这个客服垃圾 | 骂人语句 | 1 |
- 数据集创建 & 训练
- 评估
下载模版,准备数据后上传即可,会给出模型的召回情况。
Rerank
数据集格式:
query | positive | negative |
我们房间地方都留好了的 | 我们房间地方都留好了的 | 询问蓄电池维护 |
止逆阀到底干什么的 | 止逆阀的作用 | 有几个开关 |
这个水泵开起来声音还是有点大 | 买家表示水泵声音很大 | 征询电流/电压/功率等参数建议 |
对越冥漠兮,念徬徨。 | 对越冥漠兮,念徬徨。 | 买家表示水泵声音很大 |
且某年四十八矣,诸葛瘁躬之日,仅少一年;文山尽节之辰,已多一岁。 | 且某年四十八矣,诸葛瘁躬之日,仅少一年;文山尽节之辰,已多一岁。 | 询问会不会大/小/长/短 |
那你点左边手动推广那批量操作一下 | 那你点左边手动推广那批量操作一下 | 是否需要单买 |
还没查到 | 还没查到 | 询问是什么卡 |
帝至京师,宪与赵王招俱入拜谢。 | 帝至京师,宪与赵王招俱入拜谢。 | 询问散热方式 |
一不小心就付款了/:>O< | 一不小心就付款了/:>O< | 稳定性好不好 |
我的是小米的 | 买家发来手机型号 | 询问商品容量 |
什么车都能用吧! | 适用于哪些车型 | 适用于哪些机型 |
- 数据集创建 & 训练
4. badcase优化
badcase的来源分为线上和线下。线上来源是对接的各产品线的业务系统。线下数据来自贡嘎模型体验平台提交。
在badcase模块对badcase进行修复打标,然后完成打标。
完成打标后,我们可以对badcase数据进行AI扩写,来扩大badcase对数量,增大badcase修复率。
选择需要修复的badcase后,点击优化模型,选择好上一次模型的版本,开始训练。
badcase训练会自动计算badcase的修复率。修复badcase后,能在数据上看到badcase的优化记录。
5. 模型评估
(1)训练模型评估
直接在任务管理模块,选择模型上传数据集。支持多个模型同时评估。系统会自动计算模型在测试集上的效果。
(2)prompt模型评估
贡嘎不仅支持自训练模型的评估,也支持对各个大模型进行prompt的批量评估,操作类型。只需要选择prompt评估,上传数据就可以完成对prompt进行批量测试。贡嘎系统对大模型api做了负载均衡。560条数据在系统评估,只需要27秒。上线3天,已经完成12个Prompt模型48次评测。具体操作流程如下:
- 创建prompt
- 新增prompt版本,填入prompt
- 回到任务列表,选择prompt模型,上传评测数据。模型生成结果后,可以对模型输出进行打标(评估)。
- 评估后自动计算评估结果
6. 模型上线更新
对于评估结果达到上线标准,就可以提交模型上线审核,审核通过后点击发布,将模型发布到线上环境,直接打通业务系统,对业务系统使用的模型进行更新替换。节省了后端工程师上线模型,copy模型等花费的时间。
总结
目前贡嘎已经支持多个模型的训练,能够在100分钟内完成模型效果提升的闭环并成功将AI技术赋能于业务前线,显著提升了工作效率与决策精准度。贡嘎平台以其强大的模型训练能力、精细化的模型评估体系、高效的badcase优化机制以及便捷的prompt评估流程,构建了一个从模型生产到运营的全生命周期管理生态系统。
延展阅读:
淘宝京东电商客服如何更好地催单、跟单提升询单转化率和顾客体验?
咨询方案 获取更多方案详情