流量分类与混淆|163

cutpigsrollaroundint 写道 "《流量分类调研》一文的作者对流量分类进行了概述，以下是部分摘要。

根据流量分类的对象产生了两个不同的研究领域。流量特征中分类应用类型的被称为流量分类（traffic classification），从流量特征中分类所访问网站或者网页的被称为网站指纹（website fingerprinting）。流量分类威胁的是可用性，而网站指纹威胁的是匿名性和隐私。Tor 因为特别关注匿名性，对网站指纹攻击做了大量防御工作，但基本不关心流量应用分类问题。但由于 Tor 是解决一个本质相同但是更强的问题，也有很大的借鉴意义。机器学习的网站指纹攻击在学术领域取得了巨大成功，往往能获得 99% 的检测率和 1% 的误报率。但是 Tor 的开发者对其可行性提出强烈质疑，理由是学术研究未能充分考虑基本比率谬误，1% 的误报率看似很小，但是由于类别的先验概率极不平衡，在实践中 1% 的误报率是不可接受的巨大。另外一个理由是实验环境的分类器训练总是有限的数据，而实际情况是开放世界中无限的数据，训练出来的分类器是否能从实验室环境推广到开放世界？这个问题目前学术界还没有人有确切答案，即使是最近的研究中观点也是矛盾的。Tao Wang et al.认为通过方法的改进网站指纹攻击在开放世界环境中依然可行（PDF），而 Panchenko, Andriy, et al. 认为所有现有网站指纹方法都无法可靠地推广到开放世界（PDF）。怎样才能避免流量被检测？基本上都是以改变流量特征而误导分类器为思路，一般有这几类方式：填充，改变包的大小；变形，把包大小的分布拟合成另外一种应用；模仿，试图让分类器误认成错误的协议。不过这些方法无一例外在理论上都已经被反制，一个更详细的综述可以看Network Traffic Obfuscation and Automated Internet Censorship（PDF）。简单说，对于填充，这种方法无法消除足够多信息，反而产生新的特征，特别是进行随机填充的方法会受到基于信息熵的攻击。而流量变形仅仅对包大小分布做了改变，但是包大小分布并不是进行分类的唯一信息。而模仿其他应用层协议的（SkypeMorph，FTE）往往因为无法完美模仿而产生显著特征。《流量分类调研》一文的作者认为， Shuai Li et al. 提出一种信息论测度来刻画不同的流量混淆方法的理论信息泄漏程度，是一个好的方向。"