腾讯蒋杰：场景应用会成为未来大模型的决胜要素｜WAIC 2024|作家|场景应用|大模型|文生|明朝|算法|腾讯|蒋杰

“腾讯内部已有接近700个业务场景接入了混元大模型。”

作者：苏打

编辑：tuya

出品：财经涂鸦

公司情报专家《财经涂鸦》获悉，7月5日，2024世界人工智能大会·腾讯论坛在上海世博中心举办，腾讯公布大模型的最新进展和落地案例。
目前，腾讯围绕大模型已经构建起全链路的产品矩阵，包括底层基础设施、自研大模型、模型开发平台、智能体开发平台和面向场景的多元智能应用等，帮助企业客户将大模型快速落地到场景中去。
“腾讯将人工智能视为公司长期战略。数十年来，从语音到图像，再到大模型，每一次人工智能的浪潮里，腾讯都始终坚持以自主技术创新为核心动力，结合场景推动AI的研究与落地。大模型方面，腾讯已经积累了从算力基础设施到机器学习平台以及上层应用的全链路自研技术。”腾讯集团副总裁蒋杰在现场分享中表示。
据介绍，腾讯混元大模型的单日调用Tokens已经达到千亿级别，单日调用次数超过3亿，并在云上新开放了混元-lite 256k版本、vision多模态版本，以及代码生成、角色扮演、functioncall等子模型和接口，满足不同企业和开发者的需求。
蒋杰认为，未来通用模型会成为水、电、网络等基础设施一样存在，供业务和应用按需接入。“从行业和应用的角度来看，未来会出现更多不同尺寸、不同模态的模型，业务可以通过大小模型的协同，在提升性能的同时满足定制化需求。”

「积极在内部场景中打磨相关技术」
自2023年9月首次亮相以来，经过多次迭代升级，腾讯混元大模型在国内率先采用MoE架构，实现性能大幅提升，模型整体参数量已达到万亿，tokens数量超过7万亿，居国内大模型第一梯队。目前，腾讯混元大模型已通过腾讯云向企业及个人开发者开放，包含万亿、千亿、百亿等不同参数尺寸。接下来，多种尺寸的腾讯混元MoE模型也将对外开源，可分别支持手机端、PC端、云以及数据中心等多样化的部署场景。
蒋杰表示，大模型行业正经历从单模态到多模态，再到全模态的演进。比如在文生图领域，最近效果比较好的是采用DiT架构的模型，它融合了早前主要用于文本生成的Transformer架构，并在图像和视频生成任务中展现出了显著的优势；在文生视频领域，视频生成正朝着更高分辨率、更长时长、更精细的方向发展，一些较好的模型已经能够生成长达数分钟高清的视频，带来了广阔的应用想象空间。
腾讯混元大模型正在积极部署多模态甚至全模态技术，在文生图方面，混元文生图打造了业界首个中文原生DiT架构生图模型效果超开源 Stable Diffusion 模型，发布一个多月Github 点赞数超过两千，是社区内最受欢迎的国产开源文生图模型；在3D生成方面，单图输入仅需30秒即可生成动漫、汽车、建筑等类型的3D模型；在视频生成方面，腾讯混元拥有文生视频、图生视频、图文生视频、视频生视频4大核心能力，支持视频风格化、视频重绘等多样化的产品玩法。
场景应用会成为未来大模型的决胜要素。蒋杰在现场提到，当前大模型的落地主要集中在生产工具和提效方面，距离真正的业务创新还有一定距离，缺少杀手级的应用，不过行业的探索一直没有停下。
腾讯很早就将腾讯混元定义为应用级的大模型，并积极在内部场景中打磨相关技术。腾讯内部已有接近 700 个业务场景接入了混元大模型，单日调用量近3亿次，通过包括微信输入法、微信读书、QQ浏览器AI助手等业务。接下来，基于这些实践沉淀下来的能力和经验，也将通过腾讯云对外开放，让大模型走入千行百业。
例如，5月30日发布面向C端用户的AI原生应用腾讯元宝，拥有看、听、说等多模态交互能力。针对效率场景的信息获取、处理和生产三大核心需求，腾讯元宝提供AI搜索、AI总结、AI写作一站式服务，可支持单文档最长1000万字的超长文处理，能够一次性解析最多50个文件，支持上传和解析包括 pdf、doc、txt、xlsx、pptx 在内的多种文件格式。在“腾讯元宝”深度搜索模式下，可以对用户提问进行扩展，从深度和广度两方面，提供更结构化、更丰富的回答，并可同步生成内容大纲、思维导图及相关人物事件梳理，帮助用户全景式了解搜索内容。
蒋杰表示，未来，腾讯将发挥“专心致志、做好比特”的专长，将更多的“比特”转化成智能生产力，加速大模型等前沿人工智能技术在实体经济、文化保护、科学发现等领域的应用，为全社会的智能升级做好技术支持。

「2024年AI大模型十大趋势」发布
论坛现场，“数字甲骨共创中心”宣布将全球最大的甲骨文多模态数据集正式开源。该数据集包含一万片甲骨的拓片、摹本，以及甲骨单字对应位置、对应字头、对应隶定字以及辞例分组、释读顺序等数据。基于该数据集，研究人员可开发甲骨文检测、识别、摹本生成、字形匹配以及释读等方向的智能算法，助推甲骨文研究加速数字化和智能化。
此次开源的甲骨文多模态数据集集合了甲骨文数字化研究的最新成果，AI相关技术的应用也为数据集的信息丰富提供了支撑。
比如由腾讯优图实验室联合安阳团队开发的甲骨字检测模型，可以对甲骨片上的字进行一个初步的标注；字形降噪与匹配模型，为检索提供了最直接的方法；甲骨校重算法，可以实现拓片与大系摹本的配准，使得大系摹本可以直接辅助拓片的标注；同时双方联合打造的协同创新平台，也大大提升了数据标注的效率。
会上，腾讯研究院还联合上海交通大学、腾讯优图实验室、腾讯云智能发布《2024年AI大模型十大趋势》报告。报告指出，人工智能正在迅速发展，大模型技术正成为赋能各行各业的关键。从算力底座、智力增强到人机协作，大模型正在重塑人类社会，成为人类可依赖的“外脑"。
十大趋势包括算力底座、推理分析、创意生成、情绪智能、智能制造、游戏环境、移动革新、具身智能、开源共享、人机对齐等层面
具体来说，算力底座的量变和提效为大模型行业的发展提供了算力的保障。海量GPU和新一代大模型的组合，使人工智能在三个方向上有了实质性的飞跃：推理分析、创意生成和情绪智能。这意味着AI第一次拥有了类人的交互能能力，新一代AI正在成为人类的“机器外脑”，提供智力的外挂。
随着大模型与人机协作的深入，个体创作的门槛进一步降低，越来越多的个体借助大模型外脑成为“斜杠青年”、“超级生产者”，甚至开启自己的“一人企业”。端侧模型的优化将大幅提升提升移动设备的体验，为大模型带来了新的应用入口。在工业领域，多模态通用感知技术正在提升生产力，而游戏与大模型的共生关系为Agent训练提供了新的舞台。开源模型的成熟，为技术共享与创新提供了强大的生态支持。最后，人机对齐成为确保大模型安全与治理的核心议题，指引着人类走向一个更加智能、高效和伦理的未来。