人工智能迅速普及,给各个行业带去便利,然而,暗藏的 AI 投毒风险业已直接危及公众日常信息获取,还对国家安全造成威胁,绝对不可以放任不顾,任其发展。

日本右翼势力的恶意操作

借AI工具批量炮制有害内容

日本右翼势力早就盯上了AI投毒的便利途径,靠着相关生成工具成批量地生成歪曲历史、煽动对立的虚假信息,这些信息伪装成平常的测评、资讯文章,大量被投放到国内外好多内容平台。

他们将极端化言论包装成仿佛客观的分析内容,特意埋入高权重的关键词,借此诱导国内常用的大模型抓取这些带有污染性质的数据。这类带有明显恶意导向的信息,极易被大模型当作真实内容固化到知识库中。

形成跨境运作的黑灰链条

这条跨境的黑灰产业链,分工是明确的,上游的技术团队,去开发适配投毒的批量生成工具,中游的人员,负责批量注册海外以及境内平台的账号,还要发布内容,整个流程,几乎不需要太高的技术门槛,却能够实现大范围的信息污染。

很多环节避开了通常的境内监管途径,借助境外服务器来达成内容的分发,常规的内容拦截方式很难在第一时间遍及所有污染源头,这进而增大了治理的难度。

日常可见的AI投毒套路

源头数据恶意污染

打开网易新闻 查看精彩图片

那些违法乱纪之人,误用生成式引擎优化相关工具,大批量制造虚假测评,炮制不存在的虚构产品介绍,在短时间之内,于各大平台纷纷发布。2024年,360所发布的大模型安全报告指明,这类往模型里投毒的行为,已然是针对大模型最为常见的攻击形式。

展开公开的研究数据表明之情况,一旦训练数据中掺和进百分之零点零一的虚假文本,模型输出的有害内容便会增长百分之十一点二。极低的恶意数据所占比例,能够直接致使大模型输出内容的准确性出现降低情况。

误导大模型交叉验证

多数大模型会利用抓取多平台公开内容的方式来交叉验证信息可信度,不法分子恰恰是借助这一机制,大批搭建虚假内容的分发矩阵,使得大模型误认为这些反复出现的内容乃是经过多方证实的真实信息。

在此之前,曾有案例表明,有商家成批地发布并不存在的智能手环的虚假推广方面的内容,在短时间之内,主流的大模型就把它列为优质推荐的内容,还主动推送给查询相关产品的普通用户。

投毒带来实打实的危害

干扰日常信息获取

好多人已然形成了借助大模型去查询资讯、并参考消费建议的习惯,那般被投毒之后的模型产出的内容,表面上看起来是客观的,然而实际上却暗藏着预设的会产生误导作用的导向。平常的用户特别不容易分辨出这种夹杂着真实细节的假客观信息。

时日长久地积累下来,用户所接收到的错误消息会越发增多,原本旨在提高信息获取效率的AI工具,却反而变成了传送包含误导性质内容的渠道,直接对正常的信息传播生态造成破坏。

威胁关键领域运行

打开网易新闻 查看精彩图片

被污染的大模型,要是接入金融、医疗、安防这类自动化决策系统,真的极易引发决策失真问题。小到普通民众会有消费损失,大到行业内会出现公共安全事故,说不定全由那极小比例的恶意数据给触发。

境外的那种敌对势力进行的定向投毒行为,还存在这样一种可能,就是通过大模型输出,依靠有意设计编造下的虚假政治谣言,借此来扰乱公众的认知,进而给网络空间的整体安全,甚至是国家安全造成不可被忽视的冲击。

当前治理的现实难点

攻防成本严重失衡

现今,那种对于不法分子而言,能够生成批量虚假内容的技术门槛是极低的,仅仅借助普通的商用工具,在短时间之内就能产出上万条污染内容。并且,全部的操作过程所需的人力投入极少,资金投入也极少。

相比之下,对于平台以及监管方面而言,若要达成精准辨认这类伪装程度极高的投毒类型内容的目标,就需要投入数量可观的技术研发、人工核查资源。然而,攻防两端所存在的成本差异,致使治理工作难以迅速涵盖全部风险要点。

内容真伪边界模糊

如今,AI投毒的内容,很多并非那种直白得一看就是假的信息,而是在真实的基础信息之上,添加了夸大表述、定向利益引导的伪客观内容。这种内容混杂于海量的正常资讯当中,不管是AI审核,亦或是人工审核,都极易出现漏判的情况。

好多投毒方面的内容打着政策的擦边球,虽没有明显能判定违规的关键词,然而却暗中藏着特定的会起到误导作用的导向,这进一步加大了相关内容进行甄别的难度。

多方合力筑牢安全防线

完善全流程制度规范

打开网易新闻 查看精彩图片

某些相关部门务必要加速补足人工智能所在领域的制度方面的短板,针对大模型从训练开始,历经运行阶段,直至监管的一整个流程,清晰界定从事研发的企业、提供内容的平台以及实施监管的部门这各方的责任界限范围。从法律的具体层面确定AI投毒行为的处理依据。

要针对跨境的AI投毒行为,同步明确涉外涉网的处置规则,不让境外不法分子借着监管漏洞肆意实施攻击。

压实平台企业主体责任

致力于大模型研发的企业,需对数据甄别技术予以升级,于数据源抓取的环节,增添多重核验机制,以此来阻断那些具有恶意污染性质的数据,使其无法进入训练体系。内容平台同样要对账号巡查机制进行优化,从而遏制批量发布虚假内容这种违规操作。

在行业内部,能够构建起共享的恶意内容特征库,面对新冒出来的投毒手法,可在第一时间同步防护策略,从而共同去降低整体的防护成本。

开展国际协同治理行动

不同国家能够联合起来构建起AI安全威胁情报共享网络,及时相互通报最新的投毒攻击手段,以及已知的攻击源IP还有受影响的范围相关信息。防止不法分子凭借跨境监管方面的空白去实施流动作案行为。

对于日本右翼这般跨境开展恶意投毒行径的势力而言,各个国家能够协同构建黑名单机制,合力切断跨国产出并传播恶意信息的黑色产业链条,一同维护全球人工智能应用时期的安全环境。

平常大家于使用 AI 工具去查询信息之际,碰到看上去倾向于极端化、且与常识存在出入的内容时,你会在第一时间去交叉核验信息的来源吗?