闫定烨：干货！玩高频量化，你必须知道的“冰山算法”！|163

很多人对“量化交易”的理解实在太过片面，基本上把它等同于生钱工具，我不赞同这种观点。交易首先是交易本身，有它自身的经济学意义，忽略这一点而单纯把它看成使钱增值的数字游戏，很容易就会迷失本心。

我也不认为算法本身有什么稀奇，再好的算法也是死的，真正的核心价值一定是掌握和使用算法的人。实际上我讲的东西也都是公开的信息，但是即便了解了技术细节，能真正做好的人也寥寥无几。

希望这个回答可以让你对量化和高频交易有一个更清醒的认识。

对于这种情况，有一个非常简单的探测方法，即发一个最小额度的限价单在spread里，紧跟着取消这个订单。比如这个例子中，发出一个卖价为99的限价单然后取消。因为这个价格本身对不上显式的买价（98），如果没有冰山单的存在，一定不会成交。但有冰山单的情况下，一旦交易所收到这个卖单，会立刻成交冰山单中对应的量，而之后的取消指令就无效了。这样，以一种微小的成本，就可以发现市场中隐藏着的订单。事实上，的确有人会做这种事情，频繁的发单然后取消，在最优价差之间形成一种高频扰动，用来探测隐藏单。

为了应对这种扰动探测，大家一般都不会直接挂单在spread里。而是会像之前那样和普通的限价单挂在一起，这样发生交易之后，你就很难推测消耗掉的究竟是正常的限价单，还是冰山订单。那么应该怎么做呢？

首先有一个直接的思路。冰山订单的存在，一定程度上反映了挂单人对市场情况的解读，认为有必要使用冰山订单而做出的判断。需要强调的是，使用冰山订单并不是没有代价的，因为你隐藏了真实的需求，在屏蔽掉潜在的攻击者的同时，也屏蔽掉了真正的交易者！而且会使得成交时间显著增加－－因为没人知道你想买／卖这么多，你只能慢慢等待对手盘的出现。所以当有人下决定发出冰山订单的时候，也会有对市场情况的考虑，只有合适的时机才会做这种选择。

什么是合适的时机？有一些数据应该是相关的，比如买卖价差spread，买单量对卖单量的比值等。对这些数据，你可以在历史数据上做回归分析，建立起他们和冰山订单之间的线性／非线性模型。通过历史数据训练出来的这个模型，就可以作为你在实时交易时使用的冰山订单探测器。

基本模型可以定义为：F(spread，bidSize/offerSize，……) = Probability(Iceberg)

如果你想玩高深的，还可以在此基础上做HMM，SVM，神经网络之类的高级模型，但基本思路是一致的：通过盘口分析计算存在冰山订单的概率。

上面说的这个方法，看起来很高级，实际效果如何呢？我想大家也看出来了，这种建模不是很精确。作为事后分析手段用来说明什么情况下可能会出现冰山订单还不错，但是作为实时交易的探测器就不是很放心。因为使用的信息太模糊了，而且说到底建模的对象只是一种相关性，没有什么保证冰山订单的发送者一定是按照这个逻辑出牌的。

所以接下来介绍的，才是真正具有高频玩家神采的方法。

高频世界里，有一条永恒的建模准则值得铭记：先看数据再建模。如果你看了上面的介绍就开始天马行空的思考数学模型，那基本上是死路一条。我见过很多年轻人，特别有热情，一上来就开始做数学定义，然后推导偏微分方程，数学公式写满一摞纸，最后一接触数据才发现模型根本行不通，这是非常遗憾的。

而看了数据的人会怎么样呢？他很可能会发现，对于冰山订单的处理，交易所的规则是非常值得寻味的。有的交易所是这样做的：一个冰山订单包含两个参数，V表示订单总量，p表示公开显示的量。比如V=100，p=10的冰山单，实际上隐藏的量是90。如果有针对这个订单的交易发生，比如交易量10，交易所会顺序发出三条信息：

成交10Order Book的Top bid size -10新Bid +10

这三条信息一定会连续出现，并且第三条和第一条的时差dt很小。这样做的原因是尽管冰山订单存在隐藏量，但是每次的交易只能对显示出的量（p）发生，p被消耗掉以后，才会从剩余的隐藏量中翻新出一分新的p量。这样，每个人从交易所收到的信息仍然可以在逻辑上正确的更新Order Book，就好像冰山订单并不存在一样。

因此，一旦在数据中观察到这个规律，我们就可以非常有把握的判定市场中存在冰山订单，并且连p的值都可以确定！接下来的关键问题是，如何确定V的值，即判断这个冰山订单的剩余存量有多少？

这个问题从本质上说没法精确求解，因为V和p都是由下单人自己决定的，可以是任意值。但可以从两点考虑：第一，两个值都是整数；第二，人类不是完美的随机数生成器，下决定会遵循一定规律。

从这两点出发，可以对V和p建立概率模型，即计算一个给定的（V，p）值组合出现的概率是多少？这里不去深入探讨数学分析，感兴趣的朋友可以自己去看原文。简单说，可以在历史数据上通过kernel estimation技术来估算他们的概率密度函数的形状。

这样，当你在实时数据中观测到一个p的值时，就可以得出对应的V值的条件概率密度函数，即上图的一个切面，比如（p = 8）：

接下来显然就很容易计算V最可能是什么值了。这条函数曲线还有一个重要的作用是帮助你动态评估剩余存量，比如当你观察到已经有5份p被消耗掉，即可推出V>=40，由上图即可推出新的V值和剩余存量（V-5p）。

综上，算法的核心在于，通过在实时数据中监测短时间内连续出现的三条相关记录判断冰山订单的存在，而对冰山订单的量化则通过由历史数据训练出的概率模型来完成。

相信你也会看出，这种算法并不是什么作弊神器。它只是利用市场上的公开数据所做的一种推测。而且这个推测也仅仅是基于概率的，更多的应该是作为一种参考。它对做市商这种流动性提供者很有意义，可以使他们避免因为对局势的误判而遭受损失。但如果你想用它来作为一种攻击手段，觉得自己能发现隐藏大单而去Front run，那实在是很不明智的选择。

最后，这种算法也只是针对特定的交易所。其他的交易所也许不会采用同样的冰山订单处理方式。所以真正有价值的是这种从实际数据出发的建模思路，具体的算法并不值钱。

这个小算法给你展示了高频交易领域的“冰山一角”。它看起来也许不算很复杂，但是我却很喜欢。因为它清晰地展示了什么叫做先有思路，再有量化。因为有“冰山订单”这样一个从经济学基本的供需关系出发的真实需求，通过分析实际数据找到一丝线索，最后通过数学模型刻画出定量的策略，这才是漂亮的策略研发。

如果违背这个原则，一上来就去搬各种高级的模型去套数据，指望模型自动给你生成交易信号，这在我看来无异于痴人说梦。遗憾的是，这个梦的确太过诱人，而这个世界也从来不缺少莽夫。

部分数据取自《闫定烨深层技术研究之期货论》