数据是新兴的人工智能经济的燃料。企业、消费者、联网设备所创建的数据被应用于人工智能的研究和创新。一些公司,如谷歌和Facebook,他们的数据来源于用户的评论、点击和搜索查询。而对于其他公司来说,数据的采集可能是一个复杂的过程。尤其是当他们需要一个针对部分用户的企业解决方案,而不是一个针对数百万用户的全套解决方案时。幸运的是,新兴的人工智能市场为他们的AI策略提供了广泛的选择。许多创业公司在为寻找业务所需的初始数据集而苦苦挣扎,以下几种方法可以帮助他们解决这个问题:
公共数据集
各国政府、人工智能研究人员和企业正联合起来通过公开可用的数据集促进数据的民主化。这些都是经过了适当标记和正则化的数据集合,可用于测试和校准新的AI算法和工具。如果你是一个AI开发者,正在开发一个移动图像或人脸识别工具,你需要大量的数据集来训练你的算法。例如,许多研究人员和公司使用的ImageNet,就是一组手工标注的包含1000多万个数据点的大数据图集。许多公共数据集也可以用于自然语言处理、语音识别、地理空间数据分析、推荐和排序系统的开发等等。但是,要找到适合您特定产品的、可公开使用的数据集可能很困难。不过别担心,你还有其他选择。
商业数据集
如今,有质量的数据变得越来越有价值。为了利用蓬勃发展的人工智能创新和研究,许多公司开始出售他们的商业数据集。例如,道琼斯和Xignite就提供授权的基于云平台的数据访问服务。商业数据集提供商使用最新的搜索算法收集、清理和更新数据集。例如,从网络上抓取真实的业务和位置数据,然后对数据进行清理,并提供有价值的属性(比如给餐馆标注上“对孩子友好”、“允许吸烟”等),这些属性可以被集成到各种应用程序和服务中。这类商业数据集对于那些需要快速得到数据且没有内部资源来清理和归类数据的公司来说是非常有用的。
与数据量丰富的公司建立伙伴关系
你可能不需要任何内部数据来训练你的人工智能。如果你与一个数据量丰富的公司合作,他们可以为你提供所有必要的数据,以换取你的AI服务。比如,如果你是一个帮助企业识别网络入侵和欺诈的网络安全方面的初创公司,你的合作伙伴可以为你提供他们的业务数据。然后,你就可以利用学习算法来改进你售卖的网络入侵检测软件。对于创业公司来说,这种获取数据的方式可能很有趣。但是,要注意,许多公司不愿意分享他们的数据,而且对这种关键任务外包很敏感。
收购
如果你手里有大量的储备资金,你可以考虑收购拥有相关数据集的公司。这种策略的一个例子是IBM在2016年斥资26亿美元收购了Truven健康公司。由于这笔交易,IBM在电子病历、遗传学和影像资料方面增加了2亿个项目数据。在公共或商业数据集找不到数据时,通过收购获取数据可能是最好的选择。不过,对于缺乏大量资金的年轻创业者来说,使用这种策略可能非常困难。
人工采集
雇佣人员收集和标记数据有时是机器学习发展初期的最佳选择。虽然人工数据采集和标记是劳动密集型工作,不容易上规模,但这对你的创业创新仍是一个好办法。比如,许多公司使用所谓的AI教练对聊天应用程序进行性能评估和指导培训。科技创业公司和建筑搜索引擎雷达为供热公司、气候控制公司和其他为建筑物提供设备的公司确定新的建筑工地,吸引了更多消费者。建筑雷达就是使用手工标记的方法来对施工现场的图片进行标注,为公司卫星支持的搜索算法提供数据。
众包市场
众包是代替内部人员手工收集、标记和分类数据的主要方法。在众包平台,如亚马逊的Mechanical Turk,找承包商做数据的收集、标记、删除工作是很容易的。如今,企业可以通过云API轻松向承包商发起数据任务。例如,科技公司Scale提供API接口“scalers”向其不断增长的数据专家社区发送程序性请求。这个简单的过程帮助公司自动化他们的数据收集和标注,同时减少了他们自己雇佣数据专家的相关成本。
副产品
早在2016年11月,谷歌发布了名为“Quick, Draw!”的在线涂鸦程序,该程序要求用户根据文本提示绘制简单对象,由AI软件猜测画的是什么。谷歌大脑的研究人员仔细收集了用户生成的草图,用以训练它在2017年4月发布的素描AI机器人RNN。企业可以使用他们的免费产品获得训练AI所需要的数据。然而,考虑使用此种方法的企业应该意识到创建一个这样的应用程序所需要花费的时间和金钱。同时,这个应用程序还应该对用户具有很强的吸引力,这样用户才会分享他们的数据。
不管你选择什么样的策略来获取数据,记住你必须在项目开始时就做出选择。数据是AI策略的主要资产,所以不要破坏它的质量。还要确保在项目后期迭代时可以获得更多的数据,以不断改进公司。
(本文由微天使联盟编译自forbes.com)
热门跟贴