昨天,MiniMax 在官方微信公众号发文,正式发布新一代语音模型 MiniMax Speech 2.6。据介绍,此次升级聚焦于「Voice Agent」场景,在延迟、专业文本处理及语音自然度上实现显著突破,旨在为实时语音交互提供更强大的基础设施支持。
据彭博社援引消息人士报道,半导体巨头英伟达计划向人工智能软件开发公司Poolside投资至少5亿美元,最高可达10亿美元。
过去一天,国内外AI行业还有更多热点可以关注,乌鸦君带你一起看看。
大模型
1)Meta 继续加码 AI 投资
据 CNBC 报道,Meta CEO 马克 · 扎克伯格在昨日的第三季度财报电话会议上再次强调,公司在人工智能领域的高额投入是必要且长期有利的。
他表示,与其在 AI 上投入不足,不如「投入过多」,因为这些资源最终能够在广告和应用推荐系统中实现盈利回报。
扎克伯格透露,Meta 今年已斥资 143 亿美元收购 Scale AI,并将其重组为「Superintelligence Labs」,以推动前沿 AI 模型的研发。为满足算力需求,公司正在扩建数据中心,并与 Oracle、Google 和 CoreWeave 等云计算企业签署合作协议。
2)OpenAI 推出开源安全推理模型
近日,OpenAI 发布了开源安全推理模型「gpt-oss-safeguard」,提供 120b 与 20b 两个版本。该模型基于 gpt-oss 系列进行微调,采用 Apache 2.0 许可,允许开发者自由使用、修改和部署。
官方介绍称,与传统依赖大量标注样本训练的安全分类器不同,gpt-oss-safeguard 在推理阶段直接读取开发者提供的安全策略,并通过链式推理输出分类结果及理由。开发者可随时调整策略,无需重新训练模型,从而提升灵活性与适应性。
3)MiniMax 推出新一代语音模型,主打超低延时与智能文本处理
昨天,MiniMax 在官方微信公众号发文,正式发布新一代语音模型 MiniMax Speech 2.6。据介绍,此次升级聚焦于「Voice Agent」场景,在延迟、专业文本处理及语音自然度上实现显著突破,旨在为实时语音交互提供更强大的基础设施支持。
官方称,本次更新的核心亮点包括三项主要性能提升。
全面优化音频生成链路,实现低于 250 毫秒的端到端超低延迟;
新增对多语言非标准文本格式(如网址、邮箱、电话号码、金额、日期)的直接智能转换能力,无需复杂预处理即可准确朗读;
引入「Fluent LoRA」技术,即使原始音色素材存在口音或不流利等问题,也能在复刻音色的同时,输出高度流利且自然的语音,该功能支持 40 多种语言。
AI应用
1)钉钉发布首款 AI 录音卡片 DingTalk A1 青春版
昨天,阿里钉钉在微信公众号发文,官宣其首款 AI 硬件「DingTalk A1 青春版」已于昨天正式开售,售价 499 元,并附赠价值 177 元的 AI 听记高级会员。该产品定位为年轻用户的「AI 搭子」,主打轻便设计与高性价比。
据介绍,DingTalk A1 青春版采用 6nm 低功耗 AI 音频芯片,配备 3 颗全向麦克风与 1 颗骨传导麦克风,支持 32 GB 本地存储及 10 GB 云存储。
2)腾讯元宝升级数据分析功能
昨天,腾讯元宝宣布完成多项核心功能升级,用户无需打开表格文件,仅需通过自然语言指令即可快速完成复杂分析并生成可视化图表。
用户通过元宝 App、电脑版或网页版上传文件或粘贴数据,输入一句分析需求(如「分析销售额随时间的变化趋势」),系统将自动返回结果与图表。
投融资情报
1)英伟达将向 Poolside 投资高达 10 亿美元。
据彭博社援引消息人士报道,半导体巨头英伟达计划向人工智能软件开发公司Poolside投资至少5亿美元,最高可达10亿美元。彭博社还报道称,这笔投资将是Poolside正在进行的20亿美元融资的一部分,该公司目前的估值为120亿美元。
据彭博社报道,如果英伟达成功完成剩余的融资轮,其投资额可能增至 10 亿美元。
2)Bevel 获得 1000 万美元 A 轮融资
Bevel 已从General Catalyst获得1000万美元A轮融资,用于扩展其人工智能健康助手的功能。该助手能够整合来自可穿戴设备和日常习惯(涵盖睡眠、健身和营养等方面)的数据,并生成个性化的健康建议。
PS:如果你对AI大模型领域有独特的看法,欢迎扫码加入我们的大模型交流群。
热门跟贴