OpenAI因抓取加拿大人数据训练模型被认定违法|openai|专员|人工智能|加拿大|卑诗省|新闻|训练模型

你的社交媒体帖子、博客文章、新闻评论——这些公开或半公开的内容，可能已经被OpenAI拿去训练早期版本的ChatGPT了。而且，这种做法在加拿大被正式认定为违法。

本周三上午，加拿大联邦隐私专员Philippe Dufresne与卑诗省、阿尔伯塔省、魁北克省的三位省级隐私专员联合召开新闻发布会，公布了针对OpenAI的联合调查结果。四位专员一致认定，这家科技巨头在开发和训练早期大语言模型时，违反了加拿大隐私法规。

调查揭示的操作链条相当直接：OpenAI从社交媒体、博客、新闻文章等多个渠道抓取加拿大人的个人数据，其中包含敏感信息，然后将这些数据用于训练其早期人工智能模型。专员们指出，这一行为违反了加拿大《个人信息保护与电子文件法》（PIPEDA）及其省级对应法规中关于获取用户同意的要求。

PIPEDA的核心规则并不复杂——企业在商业活动中收集、使用或披露个人信息时，必须获得用户同意。OpenAI的大规模数据抓取显然绕过了这一环节。

不过，这场调查并未走向对抗性结局。Dufresne表示，OpenAI在整个调查过程中展现了诚意，积极配合并着手解决相关问题。加拿大隐私专员办公室将这起投诉定性为"有效，但附条件解决"。这意味着调查发现了明确的违规事实，但双方正在合作修复，而非进入处罚或诉讼程序。

四位专员在批评OpenAI的同时，也释放了一个更宏观的信号：加拿大现有的隐私法律框架已经难以应对数字时代的现实挑战。他们特别指出，人工智能技术和互联网的广泛性，使得现行法规中的"同意"要求在实践中几乎无法落实——用户不可能逐条阅读并同意每一个可能抓取其数据的AI系统。

这起调查启动于2023年，早于今年2月卑诗省Tumbler Ridge枪击案引发的新一轮舆论风暴。在那起造成多人死亡的枪击事件中，OpenAI虽然因"令人不安的内容"封禁了枪手的账户，却未向执法部门报告。受害者家属现已对OpenAI提起诉讼，指控其失职。

两件事叠加，让OpenAI在加拿大的合规压力陡增。一边是历史数据抓取行为的法律定性，一边是内容审核与公共安全责任的边界争议。对于正在全球范围内扩张的AI公司而言，加拿大的案例提供了一个清晰的警示：训练数据的来源合规性，不再是灰色地带。

值得玩味的是专员们的双重姿态——既认定违规，又强调修法必要性。这暗示监管者意识到，单纯追究企业责任无法解决系统性问题。当AI系统需要海量数据喂养，而"同意"机制在技术上难以执行时，法律本身需要重新设计。

OpenAI因抓取加拿大人数据训练模型被认定违法