肯尼亚生物信息学研究所的实验室里,每月有超过125份亲子鉴定样本等待处理。这些案件大多直指法庭——抚养费纠纷、监护权争夺、遗产继承争议。但支撑这一切的,是一套几乎完全依赖人工的流程:分析师手动比对短串联重复序列(STR),没有全国性的法医DNA数据库,东非人群的等位基因频率数据更是稀缺。

瓶颈不是需求,是产能。肯尼亚政府化学家实验室曾是唯一授权机构,案件积压严重;肯尼亚医学研究所后来增设了第二家公立实验室,私人机构如EasyDNA Kenya也进入市场。但结构性困境未解:遗体处理不留DNA记录,冷案无法交叉比对,法律级检测耗时数天至数周,而现有的STR等位基因频率数据库多基于欧洲、东亚或美洲人群参考样本,直接影响亲权指数计算的统计准确性。

打开网易新闻 查看精彩图片

这篇预研究文章提出了一条技术路径:用机器学习结合数据管道,构建适配肯尼亚环境的辅助鉴定系统。核心思路并不复杂——将STR图谱的比对与解释环节部分自动化,减少人为误差,压缩 turnaround 时间。但落地需要解决一个前提:非洲基因组语境下的数据缺口。

打开网易新闻 查看精彩图片

作者勾勒的架构包含三层:数据采集层整合实验室现有的STR分型结果;处理层清洗并标准化多源异构数据;建模层则针对东非人群特征训练分类或概率预测模型。关键约束是,任何系统都必须兼容肯尼亚当前的法律取证标准,输出结果需具备法庭可采性。

打开网易新闻 查看精彩图片

这不是要取代分析师,而是给积压的案件一条更快的通道。当125件/月的流量撞上有限的人力,技术干预的价值或许不在于颠覆,而在于让现有产能喘口气——同时为全国法医DNA数据库的远期建设攒下第一批结构化数据。