1. 大数据与小数据
大数据
美国知名研究机构 Gartner 对于“大数据”(Big Data)给出了这样的定义 :大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据通常用来形容一个企业创造的大量非结构化数据和半结构化数据。
大数据的特征经常被称为 4 个“V”——Volume(数据体量大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value(价值密度高)。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的种种传感器,都是数据来源或者承载的方式。
大数据分析常与云计算联系到一起,因为实时的大型数据分析需要数十、数百甚至数千的计算机并行工作。大数据还需要特殊的技术,以便有效处理大量的有时效性的数据。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。即在于提高对数据的加工能力,通过“加工”实现数据的“增值”。
从技术看,大数据与云计算就像硬币的正反面。大数据必然采用分布式云架构,其特点在于对海量数据进行分布式数据挖掘,依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术、数据挖掘电网、可扩展存储系统等。大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题可借用的手段不够且尚未被重视。大数据工程是指大数据的规划、建设、运营、管理的系统工程;大数据科学则关注大数据网络发展和运营,发现和验证大数据的规律及其与自然界和社会活动之间的关系。
小数据
第一个意识到“小数据”(Small Data)重要性的是美国康奈尔大学的教授德波哈尔·艾斯汀。艾斯汀的父亲去世之前几个月,这位计算机科学教授就注意到老人的“数字社会脉动”出现了细微的不同——他不再发送电子邮件,不去超市买菜,到附近散步的距离也越来越短。而这种逐渐衰弱的状态,即使到医院去检查心电图,也不一定能看出来。急诊检查时,不管是测脉搏还是查病历,这位90岁老人都未表现出明显异常。而事实上,追踪他每时每刻的个体化数据,他的生活已经明显与以前不同。
这种日常小数据带来的生命信息的警示和洞察,启发了这位计算机科学家——小数据可以看作是一种新的医学证据,它是属于你的数据。
什么是小数据?简单来说,大数据和别人的生意有关,但小数据却仅与你自己有关。小数据是透过各种方式,像智能家电、计算机、手机平板、穿戴式产品等,收集你的一举一动,透过数据整合,以可视化的方式让你能够更了解你自己。小数据迄今为止的应用虽然还十分幼稚,比如运动手环、智能手表等收集身体信息,告诉你每天的运动量如何,但小数据若透过数据整合,能提供的信息不只于此,如饮食健康、阅读习惯及推荐、消费分析及个人财务等等,这是数据智能化的重要方向。
小数据又被称为“量化的自我”,目的与大数据相同,是给个人提供决策依据。因为数据本身只能让你认识自己,但要怎么改变,还要看自己的决心与毅力。
大数据将改变包括当代医学在内的诸多领域,譬如基因组学、蛋白质组学、代谢组学等等。不过由个人数字跟踪驱动的小数据,也将有可能给个人医疗带来变革,特别是当可穿戴设备更成熟后,移动技术将可以连续、安全地收集并分析你的数据,这可能包括你的工作、购物、睡觉、吃饭、锻炼和通信,追踪这些数据将得到一幅只属于你的健康自画像。
无论是大数据还是小数据,我们的数据观已经发生了颠覆。
1. 关系和因果。大数据与小数据都是大量数据,与传统数据分析的区别就是,放弃对因果关系的渴求,取而代之关注相关关系。
2. 用途。过去的数据很大程度上停留在说明过去的状态,是用过去的数据说明过去。而大数据的核心就是预测,大数据将给人类的生活创造前所未有的可量化的维度,使数据从原来的说明过去变为驱动现在。
曾任职于德意志银行美国战略科技部的休斯顿大学商学院金融系蔡凯龙博士,是互联网金融专家,他提出了小数据的特性和大数据几项重要对比。
1. 数据处理方式 :大数据强调标准化,只有数据标准化,才能大规模采集,以后的数据处理才有了可能。可是数据一标准化,就失去了数据产生时的特性和背景。而小数据的最大特点,就是来源和使用者是同一个人,只不过存取时间和背景不一样而已,这就让数据标准化失去了存在的理由。2. 人的作用 :在大数据模式下,数据从人身上产生被收集后,接下来的数据处理分析,就再也跟数据主人无关了。而在小数据里,所有数据都是围绕一个人。虽然小数据不可避免要使用人工智能来提供帮助,但是人工智能发展至今还远远不能替代人脑。
3. 其他数据性质的区别 :小数据相对大数据,数据量较小,对数据不需要全部快速反应,而大数据对数据的反应要快。小数据更加注重非结构化数据之间的关联,重深度挖掘,而大数据重在包容所有个体的数据,重在广度。
4 小数据不是大数据的小型化,而是大数据的补充和延伸。小数据可解决大数据无法实现的个人隐私保护,同时小数据利用全面的个人数据优势,结合外部大数据,提供给个人最个性化、最独特、最有价值的数据服务。
2. 大数据是数字社会的仪表盘
大数据将数十亿级毫无规律可循的个人行为数据化,并通过强大的数据挖掘分析能力实现了“让数据说话”的目标。未来的数字社会,人们可以实现像观察仪表盘一样,监测社会、社群与个人的运行轨迹,从而更好地作出决策。大数据与社会升级。
大数据的应用与社会文明的进程是正相关的。一方面,随着更多社会运行的指标被开发和应用,随着个人、社群和社会的行为轨迹被数据化和结构化,随着各大数据平台的数据开放和资源整合,大数据将给国家、组织和个人带来前所未有的机会 :从政府的精细化管理、组织的数据化运营到个人的数据化生存,“用数据说话”,建立理性思维和数据思维,将是未来社会的基本规则。
另一方面,数据资产将成为未来社会最核心的资产之一,任何政府、社会和个人都不能离开、忽视大数据,都面临着因大数据升级而带来的一系列问题 :大数据收集和应用的边界在哪里?如何解决大数据的产权归属问题?如何处理大数据应用与个人隐私之间的矛盾?如何解决因大数据广泛应用而带来的数据鸿沟、数据贫困问题?
从大数据到小数据。大数据的发展将经历两个阶段 :第一个阶段是大数据平台的建设、开放和共享阶段。政府与组织围绕个人的行为轨迹收集数据,并对数据进行分析、挖掘。第二个阶段是小数据的运用阶段,通过对所有大数据平台的整合,对个人进行数据画像,建立个人小数据库,为个人提供个性化服务。
大数据以“事”或“物”为中心,小数据以具体的“个人”为中心。大数据更侧重行业、事件的挖掘和应用,而小数据将伴随个人一生,随时随处为个人决策作出合理化的建议。
3. “新社会”的数据特征
基于个人的数据结构。数字公司的所有产品均围绕个人来打造,其产生的数据也是个性化的。未来,数字公司可以以个人为单位,对不同产品的个人信息进行整合和挖掘,并围绕个人需求提供海量的小数据服务产品。
丰富的数据类型。可以想见,未来亿级的用户每天在人数字平台上的社交活动所产生的包括文字、图片、语音、视频、健康医疗和地理位置等海量数据,其类型的丰富性是其他平台不可比拟的。
强大的数据服务能力。数字公司可以提供用户洞察分析、区域人流分析、云搜、文智自然语言处理、机智机器学习等服务,通过交互式探索分析、多维分析和机器学习等分析方法,提供丰富的大数据服务。