ApolloCorpora是深圳市大数据研究院和香港中文大学的研究团队联合构建的一个多语言医疗数据集。该数据集涵盖了全球61亿人口使用的六种主要语言,包括英语、中文、印地语、西班牙语、法语和阿拉伯语。数据收集涉及书籍、临床指南、百科全书、论文、论坛和考试等。数据处理方面,研究者将原始预训练语料转换为问答对,以增强模型的医疗能力。ApolloCorpora还注重本地化特征,如症状诊断、药物名称、沟通术语及医疗实践标准,以适应不同文化和医疗体系。该数据集为多语言医疗AI模型的开发与评估提供了坚实基础,有助于推动医疗AI技术的全球应用。

详情请参见五号雷达:https://www.5radar.com/

数据集地址:

https://github.com/FreedomIntelligence/Apollo

https://huggingface.co/datasets/FreedomIntelligence/ApolloCorpus