200多种语言,几乎零数据,主流AI模型连名字都念不对。印度东北部的语言困境,MWire Labs想用一个"反常识"的实验来破题。
5月29日,NortheastGenAI 2026 workshop将全程公开运行一场"AI自治"学术会议:投稿必须用AI生成或辅助,审稿也用AI辅助,全部流程摊在OpenReview上。
这不是噱头。负责人说得直白:「我们不声称AI研究已经成熟,只是公开提出这个问题,然后发布所有结果。」
为什么偏偏是"低资源语言"
MWire Labs的定位很垂直——只做印度东北部的原住民语言技术,自动语音识别(ASR)、机器翻译(MT)、光学字符识别(OCR)、大语言模型(LLM),全栈覆盖。
但数据困境是死结。全球AI训练语料被英语、中文、印地语垄断,那200多种语言像被数字时代遗忘的方言孤岛。你让GPT-4翻译阿萨姆语的民间史诗,它可能直接给你编一个。
传统学术会议解决不了这个。审稿人不懂这些语言,投稿者凑不齐数据集,评审标准更是无从谈起。MWire Labs的解法很产品经理思维:既然人不够,就让AI先跑起来,把过程全公开,让社区自己迭代。
三轨并行:语言文化与遗产、社会历史与人类学、AI与技术。非存档性质,作者之后可以改投其他会议——降低了参与门槛,也保留了学术退路。
斯坦福先试了,他们跟进了
这个模式有先例。Agents4Science 2025,斯坦福办的,同样全开AI辅助审稿。MWire Labs直接抄作业,但场景更极端:低资源语言+发展中国家研究者+基础设施薄弱。
技术栈选OpenReview,开源、透明、可追踪。所有审稿意见、作者回复、修改记录全部留痕——这比传统黑箱审稿更适合"实验性"定位。
主讲人定了:Bonaventure F. P. Dossou,麦吉尔/Mila背景,Masakhane成员,主题是「用更少资源做更多事:低资源语言的高效方法」。这个人选对味了,Masakhane本身就是非洲语言的草根AI社区,懂"穷玩法"。
时间线很紧,意图很明显
4月8日开投,5月15日截止,5月29日开会。一个半月周期,传统会议的一半都不到。
这种压缩是有设计的:快速试错、快速公开、快速被社区检验。对于低资源语言研究,"慢工出细活"是奢侈品,先让东西跑出来更重要。
投稿模板内置FAQ快速回复,降低格式门槛。审稿后有人工编辑终审,防AI hallucination(幻觉)漏网。这些细节都在说同一句话:我们不是放任AI胡来,是在有限人力下最大化产出。
MWire Labs的算盘打得清:如果这次实验能跑出几篇可用论文、几个可用数据集、甚至只是几个失败案例的公开分析,对200多种语言的AI化都是增量。毕竟,零乘以任何数都是零,但0.1可以迭代到1。
一个开放问题:当AI能替人类写论文、审论文,学术生产的"人味"底线应该划在哪?MWire Labs选择先划一道,然后邀请所有人来看这道线合不合理。你会投吗?
热门跟贴