DeepMind创始人Demis Hassabis对AI的长期潜力持乐观态度

DeepMind创始人Demis Hassabis在最新访谈中表示,尽管AI技术在短期内被过度炒作,但其长期潜力依旧被低估。他强调了AI系统在生成过程中的“不合理的有用性”,即系统尽管不完美但已能在多个场景中提供实用帮助。Hassabis描述了DeepMind的发展,及其与Google Brain的合并,强调了团队对AI安全性和伦理的重视。

中国机器人技术发展迅速,商业化前景看好

在中国的“世界对谈”中,四大AI机器人公司的CEO讨论了人形机器人与AI技术的融合,并预测在未来5年内将实现“机器人的ChatGPT时刻”。讨论强调了AI大模型对机器人技术进步的重要性,尤其是在提高机器人的语义理解和操作泛化能力方面。面临的挑战包括提高机器人的可靠性和安全性,以及如何处理机器人可能取代人类工作的社会经济影响。

Reflect Orbital推出“人造阳光”服务

95后SpaceX工程师Ben Nowack创办的Reflect Orbital推出了一项使用卫星反射阳光的服务,用户可以通过手机定位来照明特定区域。这项服务一次可提供4分钟照明,覆盖范围达5千米直径,计划于2025年第四季度开始交付。反射技术源自Ben多年的实验和改良,通过形成准直器成功实现了太阳光的集中和导向。

Claude 3.5 Sonnet新增LaTeX公式渲染功能

Claude 3.5 Sonnet新增了LaTeX公式渲染功能,这一更新显著提高了数学方程的显示质量和清晰度。用户需求推动了此功能的开发,弥补了与其他大模型如ChatGPT的功能差异。用户对此功能反应热烈,并希望未来版本能添加更多功能,如扩展到其他Claude版本、支持电子表格和网络浏览等。

谷歌DeepMind将大模型Gemini 1.5 Pro集成于机器人

谷歌DeepMind将大模型Gemini 1.5 Pro集成于实体机器人中,提供了多模态导航和推理服务。Gemini 1.5 Pro具备处理长上下文的能力,帮助机器人理解和执行57种复杂任务,成功率约71%。该机器人利用示范视频和环境的先验知识,通过Mobility VLA模型确保在复杂环境中的导航准确性和鲁棒性。

Meta推出Sapiens模型,专为理解人类视觉设计

Meta公司推出了全新的视觉模型Sapiens,该模型专为理解人类视觉而设计,优化了二维姿势预估、身体部位分割、深度估计和表面法线预测等四大关键视觉任务。Sapiens模型结构包括共享编码器和任务特定解码器,支持1K高分辨率,适用于对细节要求高的场景,并预训练于3亿张人类图像,展现出色泛化能力。

Grok-2 mini推理技术栈重写实现两倍提速

Igor Babuschkin与xAI的开发团队奋战三天,重写了推理技术栈,使用SGLang显著提升了Grok-2 mini的处理速度,实现了两倍的提速。重写后的Grok-2在Lmsys Chatbot Arena排名第二,而Grok-2 mini排名第五。马斯克对此表示祝贺,Babuschkin承诺将继续提升Grok-2 mini的性能,强调其速度优势和低计算开销。

AI编程工具Cursor和Sonnet 3.5颠覆传统编程方式

Andrej Karpathy,前特斯拉AI总监,开始使用VS Code Cursor和Claude Sonnet 3.5进行编程,发现其功能超越了GitHub Copilot。Karpathy通过编写提示和审查AI生成的代码,AI能够自动生成大量代码,极大提升了编程效率。尽管Cursor和Sonnet 3.5对新手不够友好,但它们已成为编程领域的革命性工具,预示着AI编程时代的来临。

Noam Shazeer重返谷歌,担任Gemini项目联合技术主管

Noam Shazeer,Transformer论文的主要作者之一,已重返谷歌担任Gemini项目的联合技术主管。Gemini项目是谷歌对抗OpenAI GPT模型的重点项目,Shazeer的加入为该项目带来了强大的技术支持。此外,谷歌本月初收购了Shazeer联合创办的Character.AI核心团队,这一举措体现了谷歌在AI领域的投资决心和技术整合的战略布局。

Meta Transfusion模型实现文本与图像生成统一

Meta公司推出了Transfusion模型,该模型融合了Transformer和Diffusion技术,实现了文本到图像生成的统一。Transfusion在混合模态序列上进行训练,结合了语言建模和图像扩散的优势,显著提高了模态之间的整合效率。这一创新在多模态AI领域展现出色的表现,不仅能够生成高质量的文本和图像,还可能引领多模态交互式应用的未来发展。

*内容来源于互联网信息整理,仅供参考