French Instruct是一组完全以法语编写的指令及其对应回答的数据集,包括多轮对话。数据集由27.6万个用户与助手之间的对话组成,Tokens总数约8500万个。数据来源多样,部分通过ChatGPT API从英语翻译成法语,并经过清理和过滤,去除了无关数据,如重复项、空白对话、残留的英语文本。每个文档均添加了注释,包括生成或人工编写、答案风格和是否包含代码等信息,便于按需筛选。该数据集用于训练和评估大型模型的对话能力,同时也可用于区分人类写作文本和生成文本。

详情请参见五号雷达:https://www.5radar.com/

数据集地址:

https://github.com/angeluriot/French_instruct

https://huggingface.co/datasets/angeluriot/french_instruct