人类行为时空特性的统计力学

作者:


周涛,博士,教授,电子科技大学互联网科学中心主任。于2005年获中国科学技术大学学士学位,2010年获瑞士弗里堡大学物理系哲学博士学位,同年,年仅27岁的周涛,被聘为电子科技大学特聘教授,成为四川省最年轻的教授。师从汪秉宏教授和张翼成教授,主要研究方向为复杂性科学、网络科学、信息物理、人类动力学和群集动力学。

统计力学:

统计力学(又叫统计物理学)是研究大量粒子(原子、分子)集合的宏观运动规律的科学。统计力学运用的是经典力学原理。由于粒子的量大,存在大量的自由度,虽然和经典力学应用同样的力学规律,但导致性质上完全不同的规律性。不服从纯粹力学的描述,而服从统计规律性,用量子力学方法进行计算,得出和用经典力学方法计算相似的结果。从这个角度来看,统计力学的正确名称应为统计物理学。

人类动力学:

人类动力学是由统计物理学推动发展起来的。人类动力学通过对大量的人类行为事件进行定量统计,研究其中所隐藏的统计性规律,并根据所研究的问题,提出基本假设,建立理论模型,来探索这些规律的产生机制和可能的动力学影响。

定量研究人类行为有助于理解社会经济系统复杂性的来源。经典的人类动力学分析中包含了一个潜在的假设,就是人类行为的时间性可以用一个泊松过程很好地描述,因此人类发出相继行为的间隔时间分布应该具有一个指数的尾部。

人类和其他生物的各类个体和群体行为的统计特性,和这些统计特性的产生机制,以及对社会、生态、经济和技术等各类外部系统所产生的效应。

人类动力学主要关心各种行为在时间、空间的统计特性以及时空的相关性、个体行为之间的相互影响。

人类动力学与社会心理学的区别:

从研究对象上讲

社会心理学:非常态的特异性为,例如犯罪行为、成瘾行为、变态性行为等

人类动力学:人日常的行为模式

从研究目标上讲

社会心理学:特异行为背后具体而微的心理学和社会学机制

人类动力学:统计规律并建立相应的动力学机制。

以个体间通信行为为例,社会心理学的研究希望回答的问题是人为什么要和其他人通信,这中间既有心理学的原因——渴望交流,又有社会学的原因——信息的共享与资源的整合;而人类动力学则是希望揭示个体通信行为中展现出来的特定的统计规律——例如通信时间间隔和回复时间的幂律分布,并挖掘相应的动力学机制,例如重要信件优先处理,容易回复的信件优先处理,有截止日期的信件优先处理,不一而足。

从研究方法上讲

社会心理学:结论主要来自于有主观意图参与的实验和临床数据,通过分析得到定性或者简单统计形成的半定量结果

人类动力学则:通过无干预的客观数据,从一个外在观察者的角度给出定量化的分析结果。

从技术路线上讲

社会心理学:通过“观察-推断-实验设计-实验验证-修正推断”这个循环开展,其中实验设计中往往不可避免地掺杂很多研究人员主观判断

人类动力学:遵从“观察-数据获取与分析-统计规律挖掘-建模再现数据规律”这样的循环。后者几乎不对数据的产生过程、获取过程和分析结果进行人工的干预。

泊松分布:

Poisson分布是一种统计与概率学里常见到的离散机率分布,由法国数学家西莫恩·德尼·泊松在1838年时发表。

泊松分布适合于描述单位时间内随机事件发生的次数。如某一服务设施在一定时间内到达的人数,电话交换机接到呼叫的次数,汽车站台的候客人数,机器出现的故障数,自然灾害发生的次数等等。

应用示例(罐头):

已知某家小杂货店,平均每周售出2个水果罐头。请问该店水果罐头的最佳库存量是多少?

假定不存在季节因素,可以近似认为,这个问题满足以下三个条件:

(1)顾客购买水果罐头是小概率事件。

(2)购买水果罐头的顾客是独立的,不会互相影响。

(3)顾客购买水果罐头的概率是稳定的。

在统计学上,只要某类事件满足上面三个条件,它就服从"泊松分布"。

P:每周销售k个罐头的概率。

X:水果罐头的销售变量。

k:X的取值(0,1,2,3...)。

λ:每周水果罐头的平均销售量,是一个常数,本题为2。

根据公式,计算得到每周销量的分布:

从上表可见,如果存货4个罐头,95%的概率不会缺货(平均每19周发生一次);如果存货5个罐头,98%的概率不会缺货。

幂率(二八法则):

幂律分布最早是由Pareto提出并研究的,主要是在经济学领域。Pareto提出了著名的80-20法则,即少数人聚集了大量的财富,而大多数人的财富数量都很小,胜者通吃的原则。

类似的规则在互联网时代又被重新发现,例如1% rule (Internet culture)指出互联网上只有1%的用户在发布新的内容,99%的用户都只是在浏览。

泊松分布(左) “长尾”分布(右)

泊松分布到幂率:

在最近的几年里,通过对记录了我们活动历史的海量数据库的分析,从通讯、工作到娱乐,越来越多的证据显示我们的很多行为的时间统计特性无法用泊松过程刻画。这些行为所对应的间隔时间分布具有明显偏离指数分布的肥胖的尾部,可以用幂函数更好地拟合。

文章框架(三部分)

第一部分人类行为的时间特性分析

人类行为时间特性分析的是人多次从事某特定时间表现出来的时间上的统计规律。如一个用户经常上网,可能有以下几个问题:这个用户两次上网时间间隔分布有没有什么特征?这个用户访问他最喜欢的网站时间间隔分布是不是有类似的特征?这个用户平均要隔多久才会访问一个新网站?

1、特性分析

人类行为在时间上具有惊人相似的统计规律。用幂函数描述人类行为是一个常见的方法,但是其中隐含了一种假设即人类的行为时间间隔符合幂率分布(这个假设没有得到学术界的广泛认可)

u 阵发性与记忆性

若事件符合幂率分布,则事件在短时间密集其中中间有很长的空档期,被称为阵发性

记忆性是指,一个行为发生的时间序列具有记忆性,长时间间隔后面容易接着也是长时间间隔,段时间间隔也容易接着一个短时间间隔。

u 周期性与波动性

人的日常行为有明显的周期性和波动性,eg.白天接受电话,夜晚极少接受电话,上午10点有极高的电话频率,相比凌晨3点几乎不会有电话。以上行为就具有波动性,同时以一天为周期。

2、时间特性建模

u 经典任务列队模型

将日常需要处理的事情暂称为“任务”,有三种处理任务的方式:

1、先进先出,按接受任务的顺序执行。2、随机处理任务。3、按照优先级处理(重要性)

u 基于记忆、兴趣、节律等其他因素的模型

u 基于社会交互影响的模型

虽然经典任务队列模型很好的揭示了人类行为特性的生产机制,但也存在严重的缺陷,不能解释人类行为的普适性,有相当一部分行为具有自主性,人类的记忆、兴趣、生活规律以及社会环境影响都对负责的人类行为产生极大的影响。

第二部分人类行为的空间特性分析

1、实证分析

u 美元流通数据

u 手机数据

u 交通出行数据

2、空间特性建模

u 偏好返回建模

人类具有探索未知地点和返回熟悉领域的偏好,这可能是导致异常现象的根源。模型适用于再现人类运动行为中长期的时空标度特性,不适用于预测个体短期内到访的地点序列。

u 基于层次性交通系统的人类运动模型

u 信息熵优化模型

现有模型从不同角度对人类空间运动行为中多种统计特性的产生机制进行了有意义的探索,深化了人们对自身空间行为的理解,但是模型大多数是唯现象机制来解释行为,模型过于简化,很难直接运用于行为预测。

第三部分研究应用

1、时间、空间特性对传播的影响(疾病为例)

疾病的传播不能只考虑疾病本身的特性,人是疾病的载体,人类空间活动的变化也会影响疾病的传播速度与范围。文章中利用模拟病毒进行传播示例。

u 人类行为阵发性与记忆性对传播速度的影响

u 人类空间移动对传播的影响

种群模型

交通模式

行为模式

2、空间位置预测&信息推荐

人类行为的空间预测对通讯服务、安全事务、公共健康和资源分配都有重要意义。位置预测可以推广到在线行为预测——把一类行为看成一个地点。

互联网时代解决信息过载的一个方法就是通过推荐系统,利用信息自动化算法推荐关联内容(eg.酷狗、淘宝上的“猜你喜欢”)

面临的主要问题:

由于该领域的发展时间短暂,目前在存在有大量的问题有待于深入的研究:

第一,已有的实证统计主要针对个体行为,但仍然存在大量的个体行为的特性并未被研究,已有的研究结果尚难以根据统计特性区分个体行为的主要类别;而针对团体行为的实证研究更几乎是空白。此外,人类的行为常常受到起社会关系的影响,在这方面定量的实证研究仍然非常欠缺。

第二,除了人类的个体行为,我们所做的一些最新的统计也发现,一些社会团体的宏观行为也具有类似的非泊松特性,例如国家之间的战争的时间间隔分布等;由于目前的实证统计有限,对于社会团体而言,这些特性在多大范围内存在,是否与人类个体行为具有相似的生成机制,都仍然是未知问题,需要进行深入的研究。

第三,在研究人类行为的空间分布方面,目前的实证数据全是根据帐单、手机漫游等数据间接获得的,缺少对人类行为空间分布的直接观察;而其产生机制和动力学效应方面的研究目前几乎没有。

第四,目前的理论模型研究,虽然已经提出了多种唯现象机制来解释人类行为中的非泊松特性,但是这些机制难以覆盖全部的人类行为中的非泊松特性现象,需要新的更具有普适性的模型的提出。

第五,人类行为特性对各种社会系统的动力学效应的影响研究,尽管已经出现了少数这方面的研究,但是所涉及的问题众多,研究空白特别多,需要大量的工作深入进行。例如人类行为的空间分布特性是如何影响城市交通等。

附:

人类行为建模思路:

l 任务本身的重要性

l 偶然事件的激发

l 人自身生理节律、时间统筹等方面的变化和调节

l 他人行为的影响

l 社会环境、社会结构影响

l 人对所做事情的历史回忆或对事情结果的关注

l 任务之间的关联性

l 任务执行效率的优化和风险的降低

l 大脑的状态演示

l 若干原始本能