识因智能AI与你同行｜超级AI超算九月上线|与你同行|大模型|数学|模态|识因智能ai|调用|超级ai|音乐

英伟达携手SingularityNET，超级AI超算九月上线

SingularityNET即将于九月推出一款新型超级计算机，搭载英伟达最强GPU，目标直指人类级别的人工智能（AGI）。这台超算将采用多层次认知计算网，集成深度神经网络、大型语言模型（LLM）和多模态系统，以支持复杂AI系统的训练。通过新型神经-符号AI方法，它将减少资源需求，提高计算效率，为AGI的发展注入强劲动力。

Grok 2大模型发布，性能比肩GPT-4o

埃隆·马斯克旗下的xAI公司发布了Grok 2，这是新一代的大模型，其性能在某些方面已与GPT-4o相媲美，特别是在编码、复杂问题解决和数学领域。Grok 2和Grok 2 mini两个版本已向用户发布，展示了显著的进步和多模态理解能力。xAI计划通过新的企业API平台发布Grok-2，同时强化安全功能，提升模型核心推理能力。

谷歌Gemini Live，开启AI语音助手新纪元

谷歌推出Gemini Live，一款全新的移动对话体验，将在全球范围内的安卓和iOS设备上线。Gemini Live提供自然对话体验和多种声音选择，深度集成安卓和Pixel设备，支持跨应用程序操作和上下文感知功能。尽管面临技术挑战，谷歌仍决定快速推进，以确保在AI领域的领先地位。

Agent Q智能体，零样本学习的新高度

MultiOn公司发布了Agent Q，这是一个自监督智能体框架，能够通过互联网上的真实任务进行自我对弈和强化学习。Agent Q结合了引导式蒙特卡洛树搜索（MCTS）和直接偏好优化（DPO），显著提升了多步推理任务的泛化能力和成功率，将Llama 3的零样本性能提升了340%。

腾讯VITA，开源MLLM的新篇章

腾讯优图实验室等机构联合开发了VITA，这是首个开源的多模态大语言模型（MLLM），能够处理视频、图像、文本和音频。VITA在多语言、视觉和音频理解方面展现出色能力，并通过非唤醒交互和音频中断功能，提升了人机交互体验。VITA的开源，为多模态理解和交互的无缝集成提供了新的可能性。

Melodio，AI音乐流的无限可能

昆仑万维开发的Melodio是全球首个AI流媒体音乐App，提供无限流式AI生成音乐，支持中英文歌曲生成。Melodio通过简单的Prompt输入，允许用户生成个性化音乐，并提供歌曲参考模式，增强音乐生成的多样性。此外，昆仑万维还推出了Mureka，一个AI音乐创作平台，使用类Sora架构，支持高质量音频生成。

苹果ToolSandbox，定义大模型工具调用新基准

苹果发布了ToolSandbox，一套新开源的Benchmark，专注于考察大模型在真实环境中的工具调用能力。ToolSandbox采用场景化测评方法，包括对话交互和状态依赖场景，使用GPT-4o模拟用户与模型的交互。测试结果显示，闭源模型如GPT-4o在多工具调用和多轮对话任务中表现优于开源模型，但所有模型在状态依赖任务和规范化场景中仍面临挑战。

Pixel 9系列，谷歌AI手机的新突破

Google发布了Pixel 9系列，首次将大型多模态AI模型Gemini Nano整合进Android系统。Pixel 9系列包括四款AI手机，具备高级语音功能Gemini Live，支持多应用跨界调用和AI图像功能。Gemini Live提供的自由流畅的交流体验，支持免提功能，允许用户在多种场景下无缝与AI进行互动。

楼天城深度解析Robotaxi与AI未来

小马智行联合创始人兼CTO楼天城分享了他对Robotaxi和AI世界观的深刻见解。他认为L2自动驾驶技术的高度发展可能与L4自动驾驶技术的目标相距甚远，而在自动驾驶技术发展中，数据的多少并非决定性因素。楼天城强调，自动驾驶的发展需要通过多个阶段，每个阶段都有其关键技术和挑战。

陶哲轩最新演讲，AI引领数学新纪元

菲尔茨奖得主陶哲轩在牛津数学公开讲座中提出，AI将推动数学进入一个新的大数学时代。他认为AI在数学证明和计算领域显示出巨大潜力，尽管在生成准确结果方面有时会出现问题，但其在处理大规模数学项目和形式化验证方面的应用前景令人期待。陶哲轩对AI如何潜在地改变数学感到非常兴奋，并认为这一变革即将到来。

*内容来源于互联网信息整理，仅供参考