去年12月,葡萄牙政府宣布了一个雄心勃勃的计划:投入550万欧元打造一款专属于欧洲葡萄牙语的大型语言模型,代号"AMÁLIA"。官方定位很明确——要让欧洲葡萄牙语在AI时代获得"一等公民"待遇,不再依附于巴西葡萄牙语或其他语种的训练数据。这个愿景听起来很美好,但当我终于拿到技术报告时,却发现了一些值得深究的细节。
先说明一点:AMÁLIA本身是一项扎实的技术工作,参与的研究人员来自里斯本新大学、里斯本高等技术学院等顶尖机构,他们的专业投入毋庸置疑。但当公共资金达到这个量级,整个国家都是项目的受益方,也是监督方。提出尖锐问题,是对公共资源的尊重。
AMÁLIA的技术路线选择
AMÁLIA没有从零开始训练。它选择了"续训"策略——在EuroLLM的预训练基础上继续推进。EuroLLM是此前一个欧洲多国协作项目,葡萄牙研究人员在其中贡献了大量人力。架构层面基本沿用EuroLLM,仅对上下文长度和位置编码缩放做了微调。
真正体现"葡萄牙特色"的是数据策略。团队在每个训练阶段都刻意提升欧洲葡萄牙语数据的占比:预训练阶段使用了Arquivo.pt的葡萄牙语网络档案数据;监督微调阶段用合成方式生成葡萄牙语指令数据;偏好训练阶段则从微调数据中二次采样。这种"数据密集型"路线,是目前小语种模型追赶主流语种的典型打法。
评估环节同样下了功夫。团队专门构建了四个欧洲葡萄牙语基准测试,其中最核心的是ALBA评测集。这种自建评测体系的做法,反映出小语种AI面临的普遍困境:现有主流基准对语言细微差别不够敏感,必须自己动手填补空白。
"开源"承诺与现实落差
这里需要引入一个参照系:Allen AI的Olmo模型。Olmo并不以刷榜为目标,它的核心竞争力是极致透明——权重、数据、代码、训练日志全部公开。这种"完全开源"模式正在成为行业标杆,也为后来者提供了可复现的研究基础。
相比之下,AMÁLIA目前的开放程度相当有限。撰写本文时,我未能找到模型权重、训练数据、日志记录或新基准测试的公开下载链接。Arquivo.pt的数据处理脚本确实开源了,但处理后的核心数据集并未同步放出。GitHub上能找到一些仓库,但距离"完全开源"的标准还有明显距离。
这种落差值得警惕。当前AI领域"开放权重"与"真正开源"的混淆已经相当严重——前者只给你成品模型,后者才提供从数据到训练的全链条透明。对于一项由公共财政资助的项目,公众理应有更高期待。
当然,这可能只是时间问题。技术报告的发布本身就是积极信号,完整开源或许正在推进中。但"开源AI"的承诺窗口期正在缩短:社区注意力有限,拖延越久,复现价值和学术影响力就越打折扣。对于葡萄牙语AI生态而言,AMÁLIA的开放进度,将直接决定它能否成为欧洲小语种模型的参考范本,还是又一个"半开放"的遗憾案例。
热门跟贴