2024年12月26日-27日,由中国产业海外发展协会上合-海湾双链专委会指导、极新主办的「重度垂直·2024极新AIGC峰会」先后在深圳、香港两地顺利开幕。本届峰会以AI的垂直应用与出海为核心主题,旨在深入探讨AI技术在全球范围内的融合应用与发展趋势,挖掘AI技术在垂直行业的创新潜力,推动AI技术的全球化进程,共绘未来蓝图。前海香港科技青年之家与粤港澳大湾区青年创新创业中心、香港物联网商会、亚马逊云科技对本次会议给予大力支持。
本次大会以“重度垂直”为主题,与会嘉宾就金融、医疗、工业、文娱、消费等领域的AIGC技术创新实践展开深度讨论,同时围绕AI与IOT、AI与跨境电商两个方向,共同梳理出AIGC在未来产业发展中可能存在的问题及关键趋势。从技术创新到垂直场景的深度应用,我们有理由相信未来AIGC技术在推动行业数字化转型过程中会有新机遇、新升级。
会上,八友科技创始人&CEO梁斌带来了题为《大模型语料的最新实践与思考》的主题分享,描绘了数据采集与处理领域的复杂图景。他深刻地阐述了在技术迅猛发展的当下,如何面对数据采集的合法性、合规性挑战,以及在保护操作系统安全的同时,如何高效地处理海量数据。梁斌特别强调了高质量数据的核心地位,指出随着市场成熟,客户对数据质量的要求日益严格,而高质量数据的稀缺性也使得其价值愈发凸显。他的演讲不仅是对当前数据行业的深刻洞察,也是对未来趋势的精准预测,为听众提供了一幅数据行业的全景图。
八友科技创始人&CEO 梁斌
以下为演讲精彩观点:
数据采集和处理面临的主要挑战
主要包括技术方面。在采集方面,存在多种采集方式是不合法或不合规的。比如不能侵犯他人的操作系统,通过逆向、注入、破解或者改机的方法,加速采集和绕过风控,这些行为如果被发现是不被允许的。其次,不能大量高频采集,突破应有的限度(形成类似DDos攻击的采集)。
在数据处理方面,图像处理需要大型模型来处理,我们公司也需要使用大型模型,在大量推理显卡的基础上,来对数据进行标注。例如,需要识别文本是正面还是负面,以及图片或视频中的内容,这需要推理,需要大量的显卡,这会导致成本和投入非常大。
此外,可能行外人士了解不多的是,我们行业面临的交付时间压力非常大。客户一旦需要数据,他们希望尽快获得,这一点非常关键。因此,我们能够获得一些国央企的招标项目,并不是因为我们能做,而别人不能做,而是因为我们能在更短的时间内完成,而其他人则不能。这是我们的核心优势之一。
高质量数据重要吗?
高质量数据的重要性是显而易见的。去年市场上,所有大模型的客户,包括各类企业,都在拼命购买数据,但他们并不完全了解哪些数据是好是坏。而今年,客户只购买那些有着严格标准的数据,例如购买图片时,他们会指定图片中景物的大小和所需包含的内容。因此,客户现在已经能够识别出什么是好的数据,也就是说高质量数据的重要性正在日益增加。
换言之,去年我们的一些同行还能在市场中分得一杯羹,但今年可能就比较困难了,因为他们提供的是无差别的数据服务,他们不知道哪些数据是好的,哪些是坏的,他们交付了所有的数据。而我们通过处理后,就能知道哪些数据更好。
举个例子,国外有一个名为“Common Crawl”的公开数据集,它将全球互联网的网页数据汇集成了一个数据集,这个数据集非常庞大,达到了8PB。国际上有人在这个庞大的数据集中挑选出优质的数据,形成了一个精选的数据集FineWeb。事实上,大量的论文已经证明,使用这种精选的数据集可以提高性能,因为它的质量更高,数量更少,因此训练速度更快,性能也得到了提升。
高质量数据是否已经见底?
我不这么认为。数据可以分为两类:一类是用户产生的数据(UGC数据),另一类是专家产生的数据(PGC数据)。专家数据基本上是限量的,因为论文、电子书以及行业标准和报告这类专家级别的内容产生是非常困难的,每年就只有这么多。然而用户数据是不断发展变化的,比如国外有Twitter、Reddit等热点平台,中国有小红书、知乎、微博等,用户数据是不断增长和发展的。因此,数据见底这一说法仅限于专家数据,而用户数据实际上仍在蓬勃发展。
在数据采集和处理方面,与西方国家的差距大吗?
从几个方面来看,首先,中国的人口数量众多,移动互联网用户数远超美国,因此在数据采集方面我们有较大的优势。然而,中国的法律相对严格,例如与美国和日本在数据采集和训练方面相比,日本政府宣布在日本进行大模型的训练和运营不受版权法追溯,可以自由操作。
在中国,目前还没有这样的魄力。在数据采集方面,我们的一个国外同行Profitero每天大约采集30个TB,而我们每天能采集200TB。大家可能会惊讶我们怎么能采集这么多,因为现在已经过渡到以图片和视频为主的数据服务,文本数据肯定达不到这么大的量。
在处理能力和水平上,像我们这样市场规模只占千分之一的小公司,就能拥有2700张显卡。因此我认为,我们的处理数据的能力与西方国家的差距并不大。
简单来说,有三个原因:第一,中国的人力成本较低;第二,中国的电费非常便宜;第三,中国的显卡也很便宜。可能有人会疑惑,美国生产那么多芯片,为什么中国的显卡还便宜?因为我们购买的是二手显卡,全世界的各种洋垃圾运到香港,都非常廉价。
在数据是否会泄露个人隐私方面,我们通常会在数据交付前进行处理,去除电话号码等信息,因为有同行犯过这样的错误。客户在使用前也会进行处理,隐私不仅仅是我们知道的姓名、电话号码,还包括中文名以及医疗问诊信息、心理咨询信息等,这些信息都不能出售。
关于外国人的数据是否有隐私,他们可能认为中国人的数据没有隐私,而且也随意使用。例如,某大中型企业需要人脸信息时,明确表示不能使用中国人的脸,只能使用外国人的脸。
今年的市场与去年有什么区别呢?
以我们这个千分之一市场占比体量的公司为例,去年的营收环比增长了10倍,这主要是大模型客户下场购买数据,而今年环比下降了25%。去年我们都是直接交付数据,今年则需要大量的定制服务,需要用显卡去运行。去年的客单价是50万,今年破百万,但客单价提高并不意味着赚钱,因为客户数量减少了,大约有60-70%的客户今年不再购买,因为他们知道人工智能是一个高成本投入的领域,逐渐放弃了这块竞争。
明年,我们认为在数据定制和高质量数据方向都有重大机会。现在很多客户在处理用户的提问时,会快速调用像我们这样的数据服务商的RAG库,补充到他们的知识库中。
要进入这个行业,需要准备什么?
首先,要合规、高效且持续地参与数据采集。如果采集的数据量多,但持续性差,这是不行的,因为很多客户需要连续不断更新的数据,他们每天都需要新数据。因此,如果采集稳定性差,是不行的。高效采集的问题在于,采集的量要大,才能在市场上竞争。大家还记得我刚才讲的,要好、要快、要便宜、要安全,这些都包含在里面。此外,还需要大量的采集资源,包括代理、带宽、账号甚至电力等,供应商渠道非常多,需要花费时间去筛选。
第三,要解决大规模数据的存储、索引和分发问题。比如我们每天采集200TB数据,这些数据该如何存储?存储之后,如果有一天需要这些数据,如何能快速找到它们?当客户需要时,如何知道数据在哪里,如何拷贝和交付,这些都是非常大的挑战。
最后,就是管理大规模显卡的问题。我们使用的是二手显卡,有些显卡性能比较好,不同的显卡性能有区别,就像一个万国牌的队伍,管理复杂程度非常高。例如万卡这样的企业,一旦显卡掉卡,如何快速将基于打标的业务迁移或者重分配到其他显卡,整个管理的复杂性非常高。
更多干货分享敬请关注我们的公众号与视频号~超多精彩对话内容等待您的解锁!
关于极新:
极新是垂直于产业AI的创投和行业研究媒体,致力于陪伴和记录科技企业进步和产业成长。已与多家平台和创新企业深度对话和合作,包括华为云、阿里云、百度智能云、金山云、飞书、火山引擎、钉钉、东软、Zoho、容联云、百家云等平台企业,以及智谱AI、百川智能、格灵深瞳、深势科技、百图生科、瑞莱智慧、创客贴、生数科技等高成长公司。
2024投融资趋势追踪:| | | | | |||| |
深度对话·创新&增长的源动力:| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |
热门跟贴