关键字: [FM Eval, Bring Your Own Dataset, Custom Evaluation Metrics, Third Party Models, Fm Eval Library, Sagemaker Studio]

本文字数: 400, 阅读完需: 2 分钟

导读

导读

在这段视频中,Emily探讨了如何在亚马逊云科技上为大型语言模型(LLM)评估引入自定义数据集、模型和指标。她阐释了如何使用JSON行格式为不同工具(如自动LLM评估向导、基于人工的LLM评估和FM Eval库)格式化数据集,并利用特定的键值对。Emily还介绍了如何引入托管在SageMaker上的自有模型、第三方模型输出,或者直接使用FM Eval库指向第三方模型,例如Bedrock、Hugging Face或ChatGPT。另外,她演示了如何通过继承评估算法接口并提供自定义辅助模型来创建自定义评估指标。该视频包含实际操作演示,展示了如何在FM Eval库和SageMaker Studio向导中使用自定义数据集,以及引入自定义模型和创建自定义评估算法的示例。

演讲精华

演讲精华

在这段视频中,Emily详细阐述了如何在亚马逊云科技(AWS)上利用自定义数据集、模型和指标进行大型语言模型(LLM)评估。她首先解释了理解基础模型评估的工作原理,包括开源Python库和SageMaker控制台中的图形用户界面,两者提供了大致相同的功能,只是用户界面不同。

接下来,Emily深入探讨了如何引入自定义数据集、模型和指标,以实现完全透明和灵活性,构建任何所需的评估系统。她指出,无论是使用自动LLM评估向导、人工LLM评估还是FM EVAL库,都需要使用JSON行作为数据格式,其中每一行都是一个有效的JSON对象,包含键值对。

对于自动LLM评估向导和人工评估,数据集必须存储在S3存储桶中。而对于FM EVAL库,数据集可以存储在S3存储桶或本地路径中。不同方式对键的要求也不同。自动LLM评估向导需要”model input”和”target output”两个键,人工LLM评估需要”prompt”和”reference response”两个键,而FM EVAL库可以使用任意键,但需要在数据配置对象中正确设置。所有三种方式还可以包含一个”category”键,用于标记知识类别,以获得更深入的分析。Emily建议,如果数据集较大,可以考虑使用M5.8XLARGE或M5.12XLARGE实例类型,以获得更强大的计算能力;如果数据集较小,可以从ML.M5.4XLARGE实例类型开始。

接下来,Emily介绍了如何引入自定义模型。有三种类型的模型:1)托管在SageMaker上的模型,包括SageMaker JumpStart模型和自定义模型;2)在FM EVAL库中使用第三方模型输出;3)在FM EVAL库中直接指向第三方模型,如Bedrock、Hugging Face模型或ChatGPT。对于第三种情况,FM EVAL库提供了预构建的模型运行器,用户可以按照示例设置新的模型运行器,以便比较和对比不同模型的性能。

接下来,Emily讲解了如何在FM EVAL库中构建自定义评估指标。如果标准NLP数据集中没有适合业务需求的指标,用户可以创建自定义的分支,编写新脚本继承eval_algorithm接口,并提供自己的辅助模型进行二元分类等任务。辅助模型实际上是一个小型语言模型,用于对毒性、客户情绪、点击率或文档进行二元分类,输出一个数值或标量分数。

在实际演示部分,Emily展示了如何在SageMaker Studio中使用自定义数据集进行自动模型评估和人工评估。她首先从SageMaker常见问题中提取出问题和答案,并将其格式化为与T-Rex示例数据集相匹配的JSON行格式。然后,她在SageMaker Studio中创建了一个新的自动评估作业,指定了自定义数据集的S3路径。对于人工评估,她还更新了数据集中的键,使用”prompt”和”reference response”代替”question”和”answer”。

最后,Emily分享了如何在FM EVAL库中直接指向Bedrock、ChatGPT等第三方模型,以及如何导入第三方模型输出进行评估。她提供了相应的示例笔记本,展示了如何设置模型运行器、数据配置和评估算法。如果需要构建自定义评估算法,Emily建议在源代码的eval_algorithms模块中寻找类似的现有算法,并对其进行修改以满足特定需求。

总的来说,Amazon Web Services GenAI提供了灵活的方式,允许用户引入自定义数据集、模型和指标,满足各种大型语言模型评估需求。Emily的详细解释和实际演示,为用户提供了一步一步的指导,帮助他们充分利用这一强大功能。

总结

总结

在这个富有洞见的演讲中,Emily深入探讨了在亚马逊云科技上评估大型语言模型(LLM)时,引入自己的数据集、模型和评估指标的复杂性。她首先解释了三个关键能力:自动LLM评估图形用户界面、基于人工的LLM评估,以及FM EVAL库。随后,Emily详细指导了如何格式化数据集,以便与这些工具无缝协作,强调了遵守每种方法的特定要求的重要性。

此外,她阐明了引入自定义模型的各种选择,无论是托管在SageMaker上、第三方模型输出,还是直接指向外部模型如Bedrock或ChatGPT。Emily还揭示了通过fork FM EVAL库并继承评估算法接口来集成自定义评估指标的过程,从而允许根据业务需求定制指标。

在演讲的结尾,Emily进行了一次实践演示,展示了这些概念的实际应用。她逐步演示了格式化数据集、利用SageMaker Studio界面以及利用FM EVAL库评估自定义模型和指标的步骤。Emily全面的指导使开发人员能够充分利用亚马逊云科技进行LLM评估,让他们能够引入自己独特的数据集、模型和评估标准。

亚马逊云科技(Amazon Web Services)是全球云计算的开创者和引领者。提供200多类广泛而深入的云服务,服务全球245个国家和地区的数百万客户。亚马逊云科技致力于成为企业构建和应用生成式AI的首选,通过生成式AI技术栈,提供用于模型训练和推理的基础设施服务、构建生成式AI应用的大模型等工具、以及开箱即用的生成式AI应用。深耕本地、链接全球 -- 在中国,亚马逊云科技通过安全、稳定、可信赖的云服务,助力中国企业加速数字化转型和创新,并深度参与全球化市场。