美国国税局使用Cloudera 数据平台识别欺诈行为|cloudera|国税局|服务器|美国|英伟达

近日，英伟达公司与企业数据云公司 Cloudera公司共同合作的Cloudera 数据平台，正帮助越来越多的企业和机构提高业务能力。据悉，最新版的Cloudera 数据平台集成了英伟达的 Apache Spark 3.0加速器。

通过集成Spark 3.0库的Cloudera 数据平台，用户可在不更改任何代码的前提下提升数据管道速度，并可打破数据和机器学习工作流程的性能界限，而且无需GPU定制，企业从而能更快速地使用人工智能这一利器，借此达到更高效的业务成果。

目前，美国国税局正在使用Cloudera 数据平台，只需简单启动打包好的机器学习包，就可在降低成本的同时提高数据处理的速度，甚至能完成之前不可能完成的分析任务。

而Cloudera数据平台已帮助数据科学家Deborah Tylor在很短时间内解决了困扰已久的难题。Tylor的一项工作任务是在美国国家税务局超过300 TB的数据库中寻找蛛丝马迹，最终识别出身份盗窃以及其他欺诈行为的规律。但是之前，尽管已经做了一次又一次的尝试，甚至让一大批CPU服务器连夜工作，也无法完成如此大规模数据的整理工作。

就在Tylor焦头烂额之时，Cloudera公司的一位解决方案工程师向Tylor团队介绍了Cloudera数据平台，团队领导Rahul Tikekar欣然答应，决定利用这一平台来尝试之前不可能完成的工作。

曾在南俄勒冈大学任教10年、且已在美国国税局工作13年的Tikekar在接受采访时说，尽管自己公司的独立服务器已经配备英伟达GPU，但这一服务器不能在分布式的集群上使用Spark来运行这些显卡，因此Cloudera数据平台对他们来说是非常好的机会，尤其是它已经集成了GPU加速Spark 3.0软件。

在正式决定之后，数据科学家Tylor在没有修改任何代码的前提下对软件进行快速测试，结果发现仅通过初步快速测试，这项工作的进度就已经加速5倍，不过有些其他部分的速度仍然相对较慢。

Cloudera公司在召集英伟达的数据科学家来对代码的核心内容进行检查与分析之后，发现这些速度相对较慢的部分仍然存在的原因是因为数据结构相对散乱，这些部分的任务并没有在Cloudera数据平台上运行，而是仍在CPU上运行。

解决这一问题的方法是使用RAPIDS资源库，这是一个在GPU上进行数据分析的开放资源库，工程师们在将这些工作用一些代码进行处理，并接着将其插入Spark的 RAPIDS软件接口中后进行了测试。

结果发现接入RAPID之后，这项工作的所有代码都能顺利地在分布式Spark集群的GPU上运行，而且这一转变也很快地带来了工作速度的显著提升，运行速度比原来高出10倍，而且使用这一技术可将数据工程以及数据科学工作的成本降低一半。

美国国税局研究和应用分析与统计部门技术主管Joe Ansaldi对于Cloudera数据平台所带来的益处十分赞赏，他认为Cloudera与英伟达公司在技术上的整合，能帮助所在机构在海量数据中寻找蛛丝马迹，而从这些数据中寻找到的规律对于一些关键任务至关重要。

在未来，他们打算利用Cloudera数据平台来加速数据分析中的提取、转换、加载方面的工作。而下一步，他们计划利用Cloudera平台，来加速不同种类的人工智能推理工作。具体来说，团队计划将建立大型深度学习神经网络，来处理和分析自然语音，并将其用于国税局的各种数据处理工作中。通过利用人工智能，美国国税局的数据科学家们将能以比之前迅速许多倍的速度，来阅读宏大数据库中的众多表格，并在其中找到例如识别身份盗窃等的规律。而在没有人工智能之前，他们只能通过先扫描表格，再利用光学字符识别技术来阅读表格中的片段，相比之下效率极低。

有了这一任务成功的经验，该团队计划做更多尝试，由于在美国国税局识别身份盗窃及其他欺诈行为的规律这项工作中，已积累了不少在集群中驾驭GPU的经验，在接下来的扩展工作中，数据科学家Tylor也将作为牵头人去制定新的路线图。