周三深夜,他关掉浏览器里第四个分析签证拒签率的页面,屏幕上数字冷得扎眼——EB-1A的拒签率一年内从25.6%猛蹿到46.6%,NIW更直接冲到64.3%。移民律师的案件准备费却动辄5,000至15,000美元,绝大多数申请人根本无力负担。他意识到,真正的问题不是申请人条件不够,而是没有一个人能把移民局审案的标尺讲清楚。
他决定自己建一个平台,叫PetitionIQ。平台的核心不是通用法律条文解读,也不是让大模型凭空生成建议,而是一条检索增强生成管道,管道连向的语料库是107份美国移民局行政上诉办公室的真实非判例裁决书。这些不是教科书里的抽象原则,而是实打实的个案裁定——有人提交I-140表格被拒,上诉到AAO,然后被维持原判、推翻或发回重审。
选这个语料库的逻辑很直接:它直接暴露移民官到底怎么权衡每一项证据。当AAO写下“申请人发表的三篇领域内期刊论文虽值得肯定,但未能证明受益人的工作构成重大原创贡献”时,短短一句比任何大模型凭空泛谈都更有参考力。它不是预测,不是概率,而是已经发生的冰冷判定。
但这个语料库有个致命的先天缺陷:所有AAO判例都源自被拒后上诉的案件。那些材料一次性过关、直接获批的申请者,从头到尾都不会出现在数据集里。这种选择偏误天然会让任何基于此库训练的系统得出一个危险结论——好像什么都很难通过。他从一开始就清楚这一点,于是定下一条铁律:PetitionIQ永远不会输出通过概率。
没有“你的通过率是73%”这种臆测,也不会有“根据类似案例,可能性很高”的模糊判断。取而代之的是强度指示(强、中等、弱),并附上具体AAO判例来解释某项证据为什么能或不能支撑相应标准。每次回应还会强制附带一份语料偏误声明,直白说明AAO语料库仅含上诉被拒案件,不构成全貌。
语料偏误不是要掩盖的短板,而是刻意凸显的设计约束。面对有偏的数据,最诚实的做法就是对偏误本身保持透明,而不是用虚假的确定性去粉饰危险。
为了拿到这107份PDF,他写了一个礼貌且限速的爬虫,先通过移民局官网目录列表探测AAO按年份和类别归类的裁决书链接,获取失败时再用候选URL模式补漏。整个过程尽可能避免对服务器造成压力,同时保证每条结论都可追溯到具体档案号。
检索架构的另一个关键是防止交叉污染。不同移民类别对证据的要求差异极大,把不同类别的判例混在一起检索,很容易给出张冠李戴的参考,这在法律场景里可能造成灾难。他在混合检索基础上加了一层硬过滤:每次查询必须先锁定特定签证类别,再在对应类别子集中进行语义匹配和关键词召回。采用后,检索结果相关性大幅提升,不再因类别混淆推荐不适用的判例。
整个设计相当于把移民局内部的裁决逻辑外移到了申请人一侧。PetitionIQ不是替人写申请,而是让人在准备材料时,能直接对着曾经绊倒同类申请的真实裁决去调整论据。它想提供的不是概率,而是稀缺的尺度感。
热门跟贴