我是一名IT审计师,擅长计算机辅助审计,精通SQL\VBA\Python,熟练使用Linux。
经常干的事情是业财数据核对、业务数据各维度分析,以及编写代码对财务报表有影响的复杂逻辑进行重新计算(如成本全量重新计算、银行流水全量核对)等等。
其实大部分项目都还不是大数据。
但相信大家经常能看到各种PPT上「大数据」审计之类的,可能在财务审计眼里只要是Excel处理不了的就是大数据了。
从18年10月份以来,我应该做过有20多个不同的项目,但基本上数据量都没有超过10亿行级别,稍微大一点也就在1、2亿行的数据量的样子。
而在几亿行的数据量的情况下,勉强还是可以用SQL进行处理的,这基本上是不借助客户服务器情况下,使用个人电脑的极限。而且你还得用Linux电脑,用Windows基本上都会崩。
这两年,我有一个感觉,就是企业的数据量的级别是逐步在增大的,也许去年的项目只有1个能上亿行的数据量,而今年做的项目就已经有三个。
目前我个人使用SQL能处理的数据量大概在100G这个数量级,我相信在未来的两三年内将会有大量项目需要处理上T的能力。
这对我们来说,带来的挑战。
说简单点,你想核对数,连数都打不开,还核对个毛线。
这要求我们也要学习新的技术,和企业走到一样的水平上。
之前做过一个游戏行业的项目,核对和分析一个月的数据,一共就有80个T,当然我是没有能力处理的。我只能和企业的开发和DBA泡在一起,我提需求,他写代码出结果,我来判断。
这个过程他们使用的技术是Elastick Search和MongoDB。
当然,我自己当时也利用休息时间学了,写这些查询语句是没有问题的。
但如果你给我几台服务器,搭建起这种分布式集群,我是搞不来的,毕竟这些东西还是蛮复杂的。
就拿我现在这个项目来说:
企业SAP系统导出的序时账,一年数据就是1.1亿行,三年数据就是3亿多行。
再加上业务系统的数据,一共有几百G的数据。
一进场让企业搞台服务器,走各种流程,过了一个半月才提供。要是等着企业,黄花菜都凉了。
直接用家里的台式机,20核心10代I9处理器,32G内存,跑起数据来轻轻松松。
现在我们还能应对,但是将来呢?两年后呢?
你用所里发的3000块钱电脑能应对未来这种级别的数据审计?
你用个人电脑能应对?
但什么事都不能等、靠、要吧。
我们就先把技术学着,B站上一大把教程。比如我想掌握Hadoop和Elastic Search大数据分析技术,B站上一搜:
挺多的。
我已经懂了一丢丢会计、审计、VBA、SQL、Python、Linux,也不差这一丢丢Hadoop、ES。
等会这些技术,遇到哪个项目需要了,领导说不定就能采购三台服务器,供我们使用了。
我相信不出5年,我们数据处理能力也能跟上企业的步伐,达到几个T应该没问题吧。
嗯,我相信,
不然估计我们也被淘汰了。
2、
3
4
6、
热门跟贴