107份拒签裁决曝光：你以为够格，移民局却用这些理由翻脸|上诉|判例|裁决书|证据|语料库

周三深夜，他关掉浏览器里第四个分析签证拒签率的页面，屏幕上数字冷得扎眼——EB-1A的拒签率一年内从25.6%猛蹿到46.6%，NIW更直接冲到64.3%。移民律师的案件准备费却动辄5,000至15,000美元，绝大多数申请人根本无力负担。他意识到，真正的问题不是申请人条件不够，而是没有一个人能把移民局审案的标尺讲清楚。

他决定自己建一个平台，叫PetitionIQ。平台的核心不是通用法律条文解读，也不是让大模型凭空生成建议，而是一条检索增强生成管道，管道连向的语料库是107份美国移民局行政上诉办公室的真实非判例裁决书。这些不是教科书里的抽象原则，而是实打实的个案裁定——有人提交I-140表格被拒，上诉到AAO，然后被维持原判、推翻或发回重审。

选这个语料库的逻辑很直接：它直接暴露移民官到底怎么权衡每一项证据。当AAO写下“申请人发表的三篇领域内期刊论文虽值得肯定，但未能证明受益人的工作构成重大原创贡献”时，短短一句比任何大模型凭空泛谈都更有参考力。它不是预测，不是概率，而是已经发生的冰冷判定。

但这个语料库有个致命的先天缺陷：所有AAO判例都源自被拒后上诉的案件。那些材料一次性过关、直接获批的申请者，从头到尾都不会出现在数据集里。这种选择偏误天然会让任何基于此库训练的系统得出一个危险结论——好像什么都很难通过。他从一开始就清楚这一点，于是定下一条铁律：PetitionIQ永远不会输出通过概率。

没有“你的通过率是73%”这种臆测，也不会有“根据类似案例，可能性很高”的模糊判断。取而代之的是强度指示（强、中等、弱），并附上具体AAO判例来解释某项证据为什么能或不能支撑相应标准。每次回应还会强制附带一份语料偏误声明，直白说明AAO语料库仅含上诉被拒案件，不构成全貌。

语料偏误不是要掩盖的短板，而是刻意凸显的设计约束。面对有偏的数据，最诚实的做法就是对偏误本身保持透明，而不是用虚假的确定性去粉饰危险。

为了拿到这107份PDF，他写了一个礼貌且限速的爬虫，先通过移民局官网目录列表探测AAO按年份和类别归类的裁决书链接，获取失败时再用候选URL模式补漏。整个过程尽可能避免对服务器造成压力，同时保证每条结论都可追溯到具体档案号。

检索架构的另一个关键是防止交叉污染。不同移民类别对证据的要求差异极大，把不同类别的判例混在一起检索，很容易给出张冠李戴的参考，这在法律场景里可能造成灾难。他在混合检索基础上加了一层硬过滤：每次查询必须先锁定特定签证类别，再在对应类别子集中进行语义匹配和关键词召回。采用后，检索结果相关性大幅提升，不再因类别混淆推荐不适用的判例。

整个设计相当于把移民局内部的裁决逻辑外移到了申请人一侧。PetitionIQ不是替人写申请，而是让人在准备材料时，能直接对着曾经绊倒同类申请的真实裁决去调整论据。它想提供的不是概率，而是稀缺的尺度感。