识因智能AI与你同行｜Reflect Orbital推出“人造阳光”服务|ai|与你同行|人造阳光|大模型|机器人|模态|编程|识因智能

DeepMind创始人Demis Hassabis对AI的长期潜力持乐观态度

DeepMind创始人Demis Hassabis在最新访谈中表示，尽管AI技术在短期内被过度炒作，但其长期潜力依旧被低估。他强调了AI系统在生成过程中的“不合理的有用性”，即系统尽管不完美但已能在多个场景中提供实用帮助。Hassabis描述了DeepMind的发展，及其与Google Brain的合并，强调了团队对AI安全性和伦理的重视。

中国机器人技术发展迅速，商业化前景看好

在中国的“世界对谈”中，四大AI机器人公司的CEO讨论了人形机器人与AI技术的融合，并预测在未来5年内将实现“机器人的ChatGPT时刻”。讨论强调了AI大模型对机器人技术进步的重要性，尤其是在提高机器人的语义理解和操作泛化能力方面。面临的挑战包括提高机器人的可靠性和安全性，以及如何处理机器人可能取代人类工作的社会经济影响。

Reflect Orbital推出“人造阳光”服务

95后SpaceX工程师Ben Nowack创办的Reflect Orbital推出了一项使用卫星反射阳光的服务，用户可以通过手机定位来照明特定区域。这项服务一次可提供4分钟照明，覆盖范围达5千米直径，计划于2025年第四季度开始交付。反射技术源自Ben多年的实验和改良，通过形成准直器成功实现了太阳光的集中和导向。

Claude 3.5 Sonnet新增LaTeX公式渲染功能

Claude 3.5 Sonnet新增了LaTeX公式渲染功能，这一更新显著提高了数学方程的显示质量和清晰度。用户需求推动了此功能的开发，弥补了与其他大模型如ChatGPT的功能差异。用户对此功能反应热烈，并希望未来版本能添加更多功能，如扩展到其他Claude版本、支持电子表格和网络浏览等。

谷歌DeepMind将大模型Gemini 1.5 Pro集成于机器人

谷歌DeepMind将大模型Gemini 1.5 Pro集成于实体机器人中，提供了多模态导航和推理服务。Gemini 1.5 Pro具备处理长上下文的能力，帮助机器人理解和执行57种复杂任务，成功率约71%。该机器人利用示范视频和环境的先验知识，通过Mobility VLA模型确保在复杂环境中的导航准确性和鲁棒性。

Meta推出Sapiens模型，专为理解人类视觉设计

Meta公司推出了全新的视觉模型Sapiens，该模型专为理解人类视觉而设计，优化了二维姿势预估、身体部位分割、深度估计和表面法线预测等四大关键视觉任务。Sapiens模型结构包括共享编码器和任务特定解码器，支持1K高分辨率，适用于对细节要求高的场景，并预训练于3亿张人类图像，展现出色泛化能力。

Grok-2 mini推理技术栈重写实现两倍提速

Igor Babuschkin与xAI的开发团队奋战三天，重写了推理技术栈，使用SGLang显著提升了Grok-2 mini的处理速度，实现了两倍的提速。重写后的Grok-2在Lmsys Chatbot Arena排名第二，而Grok-2 mini排名第五。马斯克对此表示祝贺，Babuschkin承诺将继续提升Grok-2 mini的性能，强调其速度优势和低计算开销。

AI编程工具Cursor和Sonnet 3.5颠覆传统编程方式

Andrej Karpathy，前特斯拉AI总监，开始使用VS Code Cursor和Claude Sonnet 3.5进行编程，发现其功能超越了GitHub Copilot。Karpathy通过编写提示和审查AI生成的代码，AI能够自动生成大量代码，极大提升了编程效率。尽管Cursor和Sonnet 3.5对新手不够友好，但它们已成为编程领域的革命性工具，预示着AI编程时代的来临。

Noam Shazeer重返谷歌，担任Gemini项目联合技术主管

Noam Shazeer，Transformer论文的主要作者之一，已重返谷歌担任Gemini项目的联合技术主管。Gemini项目是谷歌对抗OpenAI GPT模型的重点项目，Shazeer的加入为该项目带来了强大的技术支持。此外，谷歌本月初收购了Shazeer联合创办的Character.AI核心团队，这一举措体现了谷歌在AI领域的投资决心和技术整合的战略布局。

Meta Transfusion模型实现文本与图像生成统一

Meta公司推出了Transfusion模型，该模型融合了Transformer和Diffusion技术，实现了文本到图像生成的统一。Transfusion在混合模态序列上进行训练，结合了语言建模和图像扩散的优势，显著提高了模态之间的整合效率。这一创新在多模态AI领域展现出色的表现，不仅能够生成高质量的文本和图像，还可能引领多模态交互式应用的未来发展。

*内容来源于互联网信息整理，仅供参考