近日,数据智能产业创新服务媒体数据猿联合上海大数据联盟共同发布《2024中国AI大模型产业图谱1.0版》,从大数据和人工智能等智能技术的核心出发,全面覆盖整个产业链,为行业提供更为精细且直观的专业导向。
景联文科技凭借高质量数据集,入选通用数据集核心服务板块。
景联文科技是一家专业的大模型数据服务商,提供海量优质大模型数据集,致力于为不同训练阶段的算法精准匹配高质量数据资源。
目前大模型训练数据产品主要包括:
世界知识类期刊及高价值社区文本数据:
·高质量外文文献期刊
·英文高质量电子书
教育题库:
·K12教育题库
·大学题库
·英文题库
专业知识类期刊、专利、代码:
·中文数字专利
·程序代码(代码注释)
多轮对话:
·文本多轮对话
·中英文剧本(电影、电视剧、剧本杀)
音频数据:
·普通话
图片生成及隐式/显示推理多模态数据:
·图文复杂描述
·图文推理问答对
生物数据:
·核酸库
·蛋白库
·蛋白结构库
·通路库
·生信工具
药学数据:
·药物研发数据库
·全球上市数据库
·一致性评价数据库
·生产检验数据库
·合理用药
·多维文献
·原料药数据库
化学数据:
·化合物数据库
·反应信息数据库
·物化性质数据库
·谱图数据库
·晶体信息数据库
·安全信息数据库
·商品信息数据库
材料数据:
·金属材料数据
·纳米材料数据
·相图数据
·材料性能数据
·材料腐蚀数据
·表面处理数据
·焊接材料数据
专利数据:
·全球专利基础著录数据
·全球专利原文数据
·全球专利附图数据
·全球专利法律状态数据
·全球专利法律状态数据
·全球专利引文数据
·全球专利分类索引数据
·全球专利重点申请人工商关联数据
·全球生化医药专利深加工数据
·全球专利全文数据
医疗器械数据:
·国内政策法规数据
·行业标准数据
·中国医疗器械审评数据
·中国医械临床试验数据
·全球医械临床试验数据
·医用耗材中标数据
·医用耗材带量采购数据
·医用设备招投标数据
其他成品数据集还包含200TB计算机视觉数据,65万小时多语种语音识别数据,上亿条自然语言理解数据,涵盖智能教育、智慧医疗、智能安防、智能家居、智能互联网、智慧金融、自动驾驶等主要行业应用场景。
致力于推进数据资源标准体系建设,从数据生产、数据管理平台、数据资产市场化流通、数据资源规划等方面提供高质量的数据要素供给服务。
同时景联文科技提供大模型训练数据的标注服务,建立了数据分发、清洗、标注、质检、交付的标准化操作流程,为全球数千家人工智能从业公司和高校科研机构交付海量、高质量的大模型训练数据。
此次入选《2024中国AI大模型产业图谱1.0版》,是对景联文科技在大模型训练数据领域的肯定。未来,景联文科技会继续打造通用数据集、数据标注平台及数据管理工具,更加专注于高质量、场景化的大模型AI数据服务!
热门跟贴