近日,数据智能产业创新服务媒体数据猿联合上海大数据联盟共同发布《2024中国AI大模型产业图谱1.0版》,从大数据和人工智能等智能技术的核心出发,全面覆盖整个产业链,为行业提供更为精细且直观的专业导向。

打开网易新闻 查看精彩图片

景联文科技凭借高质量数据集,入选通用数据集核心服务板块。

打开网易新闻 查看精彩图片

景联文科技是一家专业的大模型数据服务商,提供海量优质大模型数据集,致力于为不同训练阶段的算法精准匹配高质量数据资源。

目前大模型训练数据产品主要包括:

世界知识类期刊及高价值社区文本数据:

·高质量外文文献期刊

·英文高质量电子书

教育题库:

·K12教育题库

·大学题库

·英文题库

专业知识类期刊、专利、代码:

·中文数字专利

·程序代码(代码注释)

多轮对话:

·文本多轮对话

·中英文剧本(电影、电视剧、剧本杀)

音频数据:

·普通话

图片生成及隐式/显示推理多模态数据:

·图文复杂描述

·图文推理问答对

生物数据:

·核酸库

·蛋白库

·蛋白结构库

·通路库

·生信工具

药学数据:

·药物研发数据库

·全球上市数据库

·一致性评价数据库

·生产检验数据库

·合理用药

·多维文献

·原料药数据库

化学数据:

·化合物数据库

·反应信息数据库

·物化性质数据库

·谱图数据库

·晶体信息数据库

·安全信息数据库

·商品信息数据库

材料数据:

·金属材料数据

·纳米材料数据

·相图数据

·材料性能数据

·材料腐蚀数据

·表面处理数据

·焊接材料数据

专利数据:

·全球专利基础著录数据

·全球专利原文数据

·全球专利附图数据

·全球专利法律状态数据

·全球专利法律状态数据

·全球专利引文数据

·全球专利分类索引数据

·全球专利重点申请人工商关联数据

·全球生化医药专利深加工数据

·全球专利全文数据

医疗器械数据:

·国内政策法规数据

·行业标准数据

·中国医疗器械审评数据

·中国医械临床试验数据

·全球医械临床试验数据

·医用耗材中标数据

·医用耗材带量采购数据

·医用设备招投标数据

其他成品数据集还包含200TB计算机视觉数据,65万小时多语种语音识别数据,上亿条自然语言理解数据,涵盖智能教育、智慧医疗、智能安防、智能家居、智能互联网、智慧金融、自动驾驶等主要行业应用场景。

致力于推进数据资源标准体系建设,从数据生产、数据管理平台、数据资产市场化流通、数据资源规划等方面提供高质量的数据要素供给服务。

同时景联文科技提供大模型训练数据的标注服务,建立了数据分发、清洗、标注、质检、交付的标准化操作流程,为全球数千家人工智能从业公司和高校科研机构交付海量、高质量的大模型训练数据。

此次入选《2024中国AI大模型产业图谱1.0版》,是对景联文科技在大模型训练数据领域的肯定。未来,景联文科技会继续打造通用数据集、数据标注平台及数据管理工具,更加专注于高质量、场景化的大模型AI数据服务!