葡萄牙550万欧AI项目引争议：开源承诺在哪？|lia|小语种|巴西|欧洲|葡萄牙语

去年12月，葡萄牙政府宣布了一个雄心勃勃的计划：投入550万欧元打造一款专属于欧洲葡萄牙语的大型语言模型，代号"AMÁLIA"。官方定位很明确——要让欧洲葡萄牙语在AI时代获得"一等公民"待遇，不再依附于巴西葡萄牙语或其他语种的训练数据。这个愿景听起来很美好，但当我终于拿到技术报告时，却发现了一些值得深究的细节。

先说明一点：AMÁLIA本身是一项扎实的技术工作，参与的研究人员来自里斯本新大学、里斯本高等技术学院等顶尖机构，他们的专业投入毋庸置疑。但当公共资金达到这个量级，整个国家都是项目的受益方，也是监督方。提出尖锐问题，是对公共资源的尊重。

AMÁLIA的技术路线选择

AMÁLIA没有从零开始训练。它选择了"续训"策略——在EuroLLM的预训练基础上继续推进。EuroLLM是此前一个欧洲多国协作项目，葡萄牙研究人员在其中贡献了大量人力。架构层面基本沿用EuroLLM，仅对上下文长度和位置编码缩放做了微调。

真正体现"葡萄牙特色"的是数据策略。团队在每个训练阶段都刻意提升欧洲葡萄牙语数据的占比：预训练阶段使用了Arquivo.pt的葡萄牙语网络档案数据；监督微调阶段用合成方式生成葡萄牙语指令数据；偏好训练阶段则从微调数据中二次采样。这种"数据密集型"路线，是目前小语种模型追赶主流语种的典型打法。

评估环节同样下了功夫。团队专门构建了四个欧洲葡萄牙语基准测试，其中最核心的是ALBA评测集。这种自建评测体系的做法，反映出小语种AI面临的普遍困境：现有主流基准对语言细微差别不够敏感，必须自己动手填补空白。

"开源"承诺与现实落差

这里需要引入一个参照系：Allen AI的Olmo模型。Olmo并不以刷榜为目标，它的核心竞争力是极致透明——权重、数据、代码、训练日志全部公开。这种"完全开源"模式正在成为行业标杆，也为后来者提供了可复现的研究基础。

相比之下，AMÁLIA目前的开放程度相当有限。撰写本文时，我未能找到模型权重、训练数据、日志记录或新基准测试的公开下载链接。Arquivo.pt的数据处理脚本确实开源了，但处理后的核心数据集并未同步放出。GitHub上能找到一些仓库，但距离"完全开源"的标准还有明显距离。

这种落差值得警惕。当前AI领域"开放权重"与"真正开源"的混淆已经相当严重——前者只给你成品模型，后者才提供从数据到训练的全链条透明。对于一项由公共财政资助的项目，公众理应有更高期待。

当然，这可能只是时间问题。技术报告的发布本身就是积极信号，完整开源或许正在推进中。但"开源AI"的承诺窗口期正在缩短：社区注意力有限，拖延越久，复现价值和学术影响力就越打折扣。对于葡萄牙语AI生态而言，AMÁLIA的开放进度，将直接决定它能否成为欧洲小语种模型的参考范本，还是又一个"半开放"的遗憾案例。