法律行业有个怪现象:律师们每年花大价钱买文档对比工具,其实核心功能用浏览器就能实现。一位开发者最近开源了一套纯前端方案,把.docx文件的比对速度压到了140毫秒——20页文档,本地跑完,数据不出电脑。

技术路线很直接:用JSZip解压docx文件(本质是个ZIP包),抽出XML里的段落结构,再用最长公共子序列(LCS)算法做段落对齐。但LCS alone不够,因为律师改文档经常整段挪动位置,所以加了模糊匹配层,把相似度阈值设到85%以上才判定为同一段。

打开网易新闻 查看精彩图片

真正麻烦的是渲染。word-level diff要生成红线条纹(redline format),得把增删改拆到字符级别,再映射回Word的XML格式。目前实现只处理了纯文本,格式变化、表格、PDF都还没碰——作者列了TODO,但说"够让80%的律师省下订阅费了"。

性能数据是亮点:20页文档140毫秒,全程客户端计算。这意味着敏感合同不用上传任何服务器,对律所的数据合规是硬需求。对比市面上主流工具按月订阅的商业模式,这个方案的成本结构完全不同。

限制也很诚实。格式层(字体、颜色、页眉页脚)的变化检测还没做,表格会被当成纯文本打平,PDF支持更是遥遥无期。但作者的原话是:"先解决'有没有',再解决'全不全'。"

这个项目的价值不在技术复杂度,而在场景切得准。律师愿意为文档对比付费,不是因为技术难,是因为怕泄密。浏览器本地跑通,恰恰戳中了这个痛点。