SK电信通过在Amazon Bedrock中微调Anthropic的Claude模型来改进电信特定的

SK电信通过调优Anthropic的Claude模型在Amazon Bedrock中提升电信特定问答

关键要点

SK电信与AWS Generative AI创新中心合作,利用Amazon Bedrock定制Anthropic的Claude模型,以满足电信行业的特定问答需求。通过检索增强生成RAG技术的使用,提高了问答的准确性和知识基础。项目成果包括ROUGE3得分提高近58、ROUGEL得分增加约27,并显著改善了引用链接的准确性。

这篇文章由SK电信的Seunghyun Jeong、Sunwoo Lee和Eric Davis共同撰写。

SK电信SKT作为韩国领先的电信公司,服务于3000万客户,始终走在AI创新的前沿。根据其AI金字塔战略,SKT旨在为每个人、随时随地解锁AI的潜力,与AWS Generative AI创新中心合作,探索使用Amazon Bedrock进行电信特定用例的领域训练模型。

这次合作符合SKT利用AI专业知识和战略伙伴关系开发创新型基于AI的产品和服务的愿景。其中一项举措着眼于基于参考文档开发定制的解决方案,以进行有根问答grounded QampA。

检索增强生成RAG是一种流行的问答任务技术,提供了更高的事实准确性和知识基础。然而,RAG在生成不符合电信用例所需的语气、风格和礼貌时面临挑战,并且检索到的无关文档可能导致不准确的响应。为了解决这些问题,SKT与AWS GenAIIC的目标是在以下三个关键领域改进Amazon Bedrock中的Anthropic Claude模型的模型定制:

提供简明且信息丰富的回答正确引用检索文档中的链接以与SKT一致的语气和风格回答,类似于真实答案

此外,团队还研究了利用大型语言模型LLMs生成的合成数据来提升小型模型的性能,尤其是在标签训练数据有限的场景下。

Amazon Bedrock是一项完全托管的服务,提供各种LLMs和基础模型FMs,以及Amazon Bedrock知识库、Amazon Bedrock代理和Amazon Bedrock保护机制等功能,可以加速许多生成AI用例的实现。Amazon Bedrock是唯一可以让您对Claude模型进行微调的完全托管服务。它提供了直观且安全的方式来微调Anthropic的Claude模型及更多模型。微调后的Claude模型可以通过Amazon Bedrock部署,并可以无缝利用Amazon Bedrock的各种功能,例如针对电信领域特定RAG的数据知识库或用于代理服务的Amazon Bedrock代理。

在本文中,我们将介绍SKT如何利用Amazon Bedrock定制Anthropic的Claude模型,以针对SKT的技术电信文档进行电信特定问答。

解决方案概述

团队探讨了提示优化、定制微调和合成数据增强的组合。这种多层次的方法旨在最大化每种技术在有根问答生成任务中的优势。

在接下来的部分中,我们将更详细地探讨这些方法。

Anthropic的Claude模型定制与提示优化

微调通过Amazon Bedrock对包括Anthropic的Claude在内的各种FMs可用,允许根据特定用例适应预训练语言模型。这种方法在调整响应风格和格式遵循性方面特别有效。

团队首先优化了系统提示,实施了基于Anthropic模型提示最佳实践的答案格式和文档引用标准化指南。重点领域包括:

加速器国内ip地址清晰呈现系统指令一致使用代码块格式基于上下文的定制回答

这种提示工程结合微调带来了显著改善:

ROUGE3得分提高超过50ROUGEL得分提高超过25嵌入相似性得分提高超过4引用准确性显著改善

迭代的增强过程显示出累积效益,仅提示更新就带来了3540的关键指标改善,最终的定制模型在某些指标上达到了5060的提升。

这一进展清楚地显示了通过RAG、提示工程和微调进行模型定制的累积效益,最终使得新模型在ROUGE得分和引用准确性方面显著超越了基准和提示更新版本。ROUGE得分衡量了真实答案与生成结果之间的相似性,通过计算Ngram单词重叠。以下表格汇总了这些改进。

LLM提示更新微调相对于基线的改善ROUGE3ROUGEL引用准确性Anthropic的Claude 3 Sonnet基线Anthropic的Claude 3 Sonnet3830Anthropic的Claude 3 Sonnet581

使用合成数据进行微调

为了解决高质量标签训练数据有限的挑战,团队探讨了合成数据生成技术。这种方法还促进了从大型LLMs到更小型目标模型的知识蒸馏,提供了如降低延迟和成本等好处。

团队进行的对照实验使用了:

一组500个真实样本的基线一组包含500个原始样本和1500个合成样本的增强数据集一组2000个样本的较大原始数据集

合成数据由Anthropic的Claude Sonnet 3生成,基于在真实样本中使用的相同检索文档创建新的问答对。

结果通过LLM基于比较和人工偏好评估进行评估。人工评估者通过盲评模型输出进行排名,得分基于偏好最佳:4,第二:3,第三:2,最差:1。以下表格显示了人类偏好评估的结果得分。

排名模型累计得分(最佳可能得分:160)12000个原始样本微调1142500个原始样本和1500个合成样本微调1123500个原始样本微调854无微调基线84

一些关键发现包括:

小型训练集500个样本相较于基线改善有限较大训练集2000个样本得分显著提高合成增强数据的性能与相同大小的原始数据相近

尽管拥有大量特定领域的数据是最佳选择,但许多企业可用的数据集有限。在这种情况下,合成数据可以在很大程度上弥补原始数据的不足。这展示了合成数据在模型定制中的潜力。

结论

SK电信与AWS GenAIIC的合作展示了该公司致力于为电信挑战开发创新AI解决方案。通过使用Amazon Bedrock定制Anthropic的Claude模型,SKT在电信特定的韩语用例中取得了显著的性能提升,而无需从头构建模型。这一概念验证展示了显著的改进:

ROUGE3得分提高约58ROUGEL得分提高约27返回正确引用链接的准确性显著提高

这一方法结合合成数据生成技术,与SKT的AI金字塔战略相辅相成,能加快新方法的测试和开发。随着SKT继续关注个人AI助手、AI医疗和AI数据中心等关键领域,与AWS的这次合作代表了它们在AI发展以及在全球AI竞争力中的重要一步。

对在相似项目中与AWS合作感兴趣的读者,可以访问Generative AI创新中心。

作者介绍

Sungmin Hong是AWS Generative AI创新中心的高级应用科学家,帮助加速AWS客户的各种用例。在加入亚马逊之前,Sungmin曾是哈佛医学院的博士后研究员。他拥有纽约大学的计算机科学博士学位。在工作之外,Sungmin喜欢远足、阅读和烹饪。

Sujeong Cha是AWS Generative AI创新中心的深度学习架构师,专注于模型定制和优化。她在利用生成AI以及传统AI/ML解决方案解决客户业务用例方面拥有丰富的实践经验。Sujeong拥有纽约大学的数据科学硕士学位。

SK电信通过在Amazon Bedrock中微调Anthropic的Claude模型来改进电信特定的

Arijit Ghosh Chowdhury是AWS Generative AI创新中心的科学家,专注于模型定制和优化。在其角色中,他从事微调和模型评估的应用研究,使不同产业可以采用生成AI。他拥有伊利诺伊大学厄本那香槟分校的计算机科学硕士学位,研究重点是问答、搜索和领域适应。

Yiyue Qian是AWS Generative AI创新中心的应用科学家II,支持为AWS客户提供生成AI解决方案。在此角色中,她与一组专家团队合作,为各行各业的AWS客户开发创新的AI驱动模型。Yiyue拥有圣母大学的计算机科学博士学位,研究重点是先进的机器学习和深度学习技术。

WeiChih Chen是AWS Generative AI创新中心的机器学习工程师,负责为LLMs进行模型定制和优化。他还构建工具,帮助团队应对LLM开发生命周期的各个方面,包括微调、基准测试和负载测试,促进AWS客户的多样化用例采用。他拥有加州大学戴维斯分校的计算机科学硕士学位。

Hannah Marlowe是AWS Generative AI创新中心的模型定制高级经理。她的团队专注于帮助客户使用他们独特和专有的数据开发差异化的生成AI解决方案,以实现关键业务结果。她在爱荷华大学获得物理博士学位,专注于天文X射线分析和仪器开发。在工作之外,她常常在科罗拉多州的山中远足、骑山地自行车和滑雪。

Seunghyun Jeong (Steve)是SKT平台应用团队的组长,负责商业化全球智能平台GIP,提供AI模型和工具。在大部分职业生涯中,他是项目经理,开发与运营SK的各种移动服务,如移动钱包、时尚流媒体和统一登录服务。他的团队致力于扩大模型和功能的交付,方便内部团队应用AI,推动SKT的AI转型。在进入AI领域之前,他是产品经理,负责开发和运营服务。

Sunwoo Lee (Lois)是SK电信全球人工智能技术部门数据构建和评估团队的组长。她负责语言模型的培训数据设计与构建、模型性能评估过程及其在服务中的应用。她的职业生涯专注于IT中的自然语言处理NLP,结合了她在语言学和韩语教育方面的背景。与她的世界级团队一起,她不断探索和解决如何优化语言模型训练数据设计的问题,以及验证语言模型性能的最佳任务和方法。

Eric Davis是SKT人工智能技术合作组的副总裁,负责与全球技术合作伙伴的技术合作,以定制大型语言模型LLMs以适应电信领域。他的团队负责设计和构建数据集以调整LLMs,并对LLMs进行基准测试,包括电信域的基准测试。Eric拥有卡内基梅隆大学语言技术研究所的计算机科学硕士学位,以及加州大学洛杉矶分校的语言学与心理学学士学位。

Amazon DocumentDB零ETL集成现已与Amazon OpenSearch Servic
< 上一篇
使用 AWS Lake Formation 和 AWS IAM 身份中心设置跨账户 AWS Glue
下一篇 >

评论