大模型时代，如何跨过数据的「三座大山」？

RoboX

2024-09-25 10:10 ·北京

9月24日，恺望数据联合北京国际算力服务有限公司举办的“数智加速度：AI大模型下的数据力量与应用革新”生态大会开幕。

当天，恺望数据与亦庄智能院旗下全资子公司京算公司、车网公司携手，基于“人工智能数据训练基地”打造了全国首个“车路云数据协同平台”，并已正式上线运营。

按照数据基础制度先行区重点建设“2中心2基地（数据训练基地）”的功能布局，由京算公司运营的人工智能数据训练基地是国内首个正式启用的人工智能数据训练基地，集中承载北京规模最大的智能算力基础设施、人工智能数据标注库和大模型数据训练基地等功能，解决行业中存在的数据流通难、确权难、应用难及合规监管难等痛点，推动高质量数据价值释放。

三大场景解决方案

在宣布该消息的同时，恺望数据CEO-于旭也发表了一场演讲，不仅详细解读了大模型时代的数据挑战，还宣布将基于数据优势打造AI大模型应用，并发布剧本创作、客服辅助和文件处理三大AI应用场景的解决方案。

首先，在剧本创作场景中，恺望数据通过定义内容产线的不同分工和角色，将AI内容生产能力“嵌入”内容产线的各个环节，实现从内容选题、剧本撰写到视觉包装的全流程AI解决方案，帮助企业快速生成高互动性的AI社交内容。

在客服辅助场景，恺望数据结合智能座舱、智慧园区、电子商务、私域运营等场景的不同需求，为企业提供从场景梳理到模型搭建的全流程AI客服解决方案，大幅提升客服响应效率，降低运营成本。

在文件处理场景，针对大批量合同审批、流程制度管理等业务需求，恺望数据能够提供基于AI大模型的审批辅助和修改意见生成等解决方案，帮助企业优化管理流程，实现效率提升三倍以上。

跨越“三座大山”的新方法

于旭提出，一直以来，行业经常吐槽数据复用，数据共享的一些问题，如今这些问题都有了新的解法。

于旭回忆道，在2022年创业之初，恺望首先聚焦在自动驾驶赛道，建设的是超快速数据服务；‘就像福特汽车的生产流水线，我们解决数据的问题，就要把数据拆成原子化，把门槛变低，让那些曾经不参与数据加工的人也能更容易地参与进来。”

她表示，在那时，数据行业的大部分参与方是在做“生产型的施工队”。而恺望在创业之初，就希望把顶层设计做好，来做系统性的一站式的数据生产线。

“大家的需求从来都是‘既要又要还要’——既要数据的质量，又要低廉的成本，还要好的速度。”

基于这些需求，恺望在大模型时代，增加了一系列的 AI应用的服务。于旭认为，大模型在2024年要进入商业化，也要渗入到千行百业之中。这背后，需要一系列系统性的工程。

“很多大厂和创业公司在应用分发的过程中，都一味关注算力资源，忽略了数据服务的部分。然而，如果说大模型是一套房子，数据就是核心的砖。”

在持续提供数据服务的过程中，于旭总结出了“三座大山”——交易、适配，定价。

首先，数据交易在过去都是做定制化的事情。可直到今天，“如何合情合理地交易”还是一个问题，例如合规性的安全要求、数据存储成本问题，还有车端数据和路端数据的各类问题等。

“在交易者之间，存在着一个很重要的点，那就是信任，信任的内容包括数据泄露、倒卖倒卖等问题。”

在此背景下，此次发布的“车路云”数据协同平台，可以让大家合情合理合规地进行存储，同时还有特惠的算力。总结下来就是“数据合规不出域，特惠算力训模型”。

同时，运营训练基地的北京国际算力服务有限公司总经理助理马光介绍称，基地针对大模型训练的数据合规和场景应用了“监管沙盒”机制，为新技术创新迭代提供开放包容的政策保障。

例如，基地里专门的存储设备能让数据“可用不可见”。从采集到存储，再到初加工、精加工，最后到模型训练，整个链条都是在训练基地进行，跑不出去。“一旦发生纠纷，也有解决的兜底机制，邀请互联网法院、知识产权局等来帮忙协调。”马光说。

其次，自动驾驶的数据适配问题也一直存在——例如A车数据用于B车的过程中，由于传感器位置不同，场景不同，天气不同，这些数据很难被匹配到一起。

不过于旭表示，通过这几年的变化，传感器的配置和算法也都在往趋同的方向走：“我们发现出现了许多相似的采集车型，相似的高度和传感器的配置，这让数据的流通基础变得越来越可能。

但是匹配度不高的情况必然还会存在，这时的解决方案就像拼车一样——至少有一部分是能拼成的，拼不成的部分，可以进行二次精加工、精筛的方式去做进一步处理。

第三座大山，就是定价问题。在行业价格普遍内卷的情况下，恺望作为数据加工方，推出了“3元/10万帧起售”的限时价格。

为何与亦庄合作？

于旭表示，亦庄有三个“遥遥领先”——第一、遥遥领先的智能网联，第二、遥遥领先的车路云一体化，第三、遥遥领先的数据基础制度先行区。

“亦庄不只有自动驾驶，还有其他的方方面面的领域和行业，恺望服务自动驾驶、服务大模型，也服务各种AI应用，我们也很期待，在这样的场合里，从自动驾驶到千行百业，让数据可以更快更好地以新型的模态流通起来

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴