宁波沃德等申请基于危险解码的大语言模型越狱方法专利，提高越狱攻击成功率

金融界

2025-05-06 15:48 ·北京 ·金融界网站官方账号优质财经领域创作者

金融界2025年5月6日消息，国家知识产权局信息显示，宁波大学科学技术学院、浙江万里学院、宁波沃德信息科技发展有限公司申请一项名为“一种基于危险解码的大语言模型越狱方法”的专利，公开号CN119918058A，申请日期为2024年12月。

专利摘要显示，本发明涉及一种基于危险解码的大语言模型越狱方法，基于大语言模型通过一个危险模型的解码路径来引导目标模型的token生成，在经过令牌空间的重组得到更新后的令牌空间后，按照确定好的解码方式进行解码即可生成一个token，判断是否越狱成功的标准为生成的回复内容是否有效的回复了恶意提示词。本发明通过微调一个小模型变成危险模型，利用危险模型令牌空间中肯定回复的token概率较高这一特点去更新目标模型的令牌空间，使其最终进行肯定回复恶意提示词。这种方法降低了时间的消耗，提高了越狱攻击成功率，可以很好的对开源模型进行越狱，相比于现有技术，通用性更强。

本文源自：金融界

作者：情报员

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴