识因智能AI与你同行｜谷歌HeAR AI模型，通过声音识别疾病|上下文|人工智能|大模型|模态|神经网络|识因智能|谷歌hearai

Scale AI创始人论AI性能停滞与数据壁垒问题

Scale AI的华裔创始人指出，当前AI性能的停滞主要是由于数据壁垒，即互联网上可访问的数据已被耗尽。为了突破性能瓶颈，需要更多多样化和专业化的数据。同时，他强调AI技术的重要性，并提出对最先进的AI系统采取封闭策略，以防止潜在的负面后果。此外，数据获取与治理被视为AI发展的关键，需要更宽松的数据访问政策来支持AI技术的进步。

谷歌HeAR AI模型，通过声音识别疾病

谷歌推出的HeAR AI模型，通过分析咳嗽、说话和呼吸声音来识别疾病，特别是肺结核等。HeAR模型经过超过1亿次咳嗽声的训练，能够准确识别疾病的早期征兆。该模型已在印度得到应用，并得到了联合国“终止结核伙伴关系”的支持，提高了肺结核的早期检测能力。

字节跳动Seed-ASR语音模型，支持多语言和方言识别

字节跳动推出的Seed-ASR语音模型，能够识别和转录包括13种中国方言和7种外语在内的多种语言。该模型采用数十亿参数，结合音频编码器和大语言模型，实现了上下文感知的语音识别。通过自监督学习、监督微调、上下文微调和强化学习的训练过程，Seed-ASR在长文本处理和专业领域的表现得到了显著提升。

KAN 2.0神经网络架构更新，助力经典物理学研究

KAN 2.0是一次重要的神经网络架构更新，它增强了对经典物理学问题的处理能力，支持研究者定制化使用。新增的MultKAN、kanpiler和树转换器等功能，提升了模型的解释性和科学发现能力。KAN 2.0在物理定律的发现和构造方面展示了其应用潜力，并计划将这种能力扩展到更多的科学领域。

英伟达LongVILA模型，长视频处理准确率近100%

英伟达推出的LongVILA是一种全栈长视频视觉语言模型解决方案，能够处理高达1024帧的视频，准确率接近100%。LongVILA采用多模态序列并行技术，优化了内存使用和处理速度，显著提升了长上下文训练的效率。在长视频字幕和指令遵循任务上，LongVILA展现出卓越的性能，通过创新的系统设计和模型训练策略，增强了处理长序列视频的能力。

英伟达AI NPC技术首次应用于游戏《解限机》

英伟达利用其Nvidia ACE技术，首次在游戏中推出了能理解玩家语音并动态响应的AI NPC。这一技术采用了Minitron 4B模型，仅需2GB显存即可在本地快速响应，适用于所有型号的RTX GPU。尽管AI NPC在智能和响应速度上有所提升，但玩家反馈显示，其反应与传统游戏NPC相似，暴露了轻量级模型在某些方面的局限性。

AI模型AutMedAI提前识别儿童自闭症，准确率超80%

使用AI模型AutMedAI，研究者能够在儿童12个月大之前准确识别自闭症，准确率达到80.5%。AutMedAI模型利用基础医疗筛查和背景历史信息，依赖家长报告的数据，简化了特征选择，使得早期筛查更加实用和广泛适用。研究利用了大规模数据库SPARK，确保了研究的广泛适用性和模型的泛化能力。

微软发布Phi 3.5系列AI模型，支持自定义微调

微软近期推出了Phi 3.5系列的三款新模型，包括Phi-3.5-mini-instruct、Phi-3.5-MoE-instruct和Phi-3.5-vision-instruct，它们均支持自定义微调和商业用途。这些模型覆盖了从轻量级到多模态的多样化需求，特别是Phi-3.5-MoE-instruct采用的混合专家架构，以及Phi-3.5-vision-instruct的多模态能力，为高质量推理和复杂视觉任务提供了强有力的支持。

OpenAI推出GPT-4o微调服务，提升AI应用性能

OpenAI最新宣布的GPT-4o微调服务，为开发者提供了一个使用自定义数据集进行模型优化的平台。这项服务不仅提高了AI在特定应用场景中的性能，还通过优惠期的免费训练tokens，增加了成本效率。GPT-4o在软件工程和SQL查询生成等多个行业基准测试中表现卓越，展现了其在企业级解决方案中的实际价值和潜力。

人工智能成为新质生产力的重要引擎

2024年世界机器人大会在北京举行，聚焦人工智能与机器人技术融合，展出27款人形机器人。《政府工作报告》首次提出"人工智能+"行动，强调其在产业升级中的关键作用。人工智能正广泛应用于智能制造、医疗等领域，推动生产力质的飞跃。为进一步发挥其潜力，需加速技术创新和行业应用落地，同时获得政策支持。我国庞大的市场和丰富的应用场景为人工智能发展提供广阔空间。

*内容来源于互联网信息整理，仅供参考