人工智能研究所AI

学习计算机视觉模型，首要的任务就是要学懂 CNN 卷积神经网络模型，因为很多计算机视觉模型都是基于 CNN 卷积神经网络模型进行优化升级设计的。而 CNN 卷积神经网络模型也是最基础的视觉模型，其中设计到的参数，定义，数据流向等如何操作，特别是 CNN 卷积的操作如何进行，本期介绍的这个工具，可以可视化 CNN 卷积的过程，以及整个 CNN 卷积神经网络模型的搭建。

人工智能研究所AI

meta提出了 Sapiens，人类基础视觉模型。这是一个以人为中心的视觉任务的模型。包括： 2D 姿势估计、人体部位分割、深度估计和表面法线预测。
此模型本身支持 1K 高分辨率推理，Sapiens在超过 3 亿张人类图像上预训练的模型进行微调，就可以非常轻松地适应各个任务。在相同的计算预算下，对精选的人类图像数据集进行自我监督预训练可以显著提高各种以人类为中心的视觉任务的性能。 Sapiens 原生支持1024×1024高分辨率图像，而之前的 SOTA 模型（如 Dino v2）则使用 224×224。Sapiens 系列模型是从头开始构建的视觉转换器。Sapiens首先使用Masked AutoEncoder (MAE)方法进行预训练，然后针对特定任务进行微调。预训练是使用自监督训练在未标记的 Human-300M 数据集上进行的，数据集包含 1.2 万亿个标记。而Sapiens模型是 meta 开源的模型，其代码与预训练模型都可以在 GitHub 上面找到，当然，也可以直接在 hugging face 上面在线体验。

人工智能研究所AI

LLM大语言模型中的旋转位置编码是什么？
在标准的transformer模型中，通常采用的是绝对位置编码（例如Sinusoidal Positional Encoding），这种方法为序列中的每个位置分配了一个唯一的向量。然而，这种位置编码方式存在一些局限性： - 它需要额外的参数来存储位置编码信息。 - 在处理变长序列时，需要根据最长序列长度预先定义位置编码。 - 在生成任务中，随着序列的增长，位置编码可能会变得不切实际。绝对位置编码计算简单，但是相对位置编码更能体现LLM大语言模型中单词之间的语义信息，能否使用绝对位置编码来实现相对位置？旋转位置编码（Rotary Positional Encoding, RPE）是一种用于Transformer模型的位置编码方法，它不同于传统的绝对位置编码（如Sinusoidal Positional Encoding）或相对位置编码。RPE的主要目的是为了更好地捕获序列中元素之间的相对位置信息，并且在不增加额外参数的情况下增强模型对位置信息的敏感性。在二维空间中，RoPE的实现可以看作是一个旋转矩阵的应用。对于一个二维的query向量（或key向量），RoPE会将其与一个旋转矩阵相乘，从而实现向量的旋转。这个旋转矩阵的旋转角度与向量在序列中的位置有关，通常是通过一个与位置相关的频率函数来计算的。通过这种方式，RoPE能够将位置信息以旋转的方式编码到向量中。 RoPE的思想可以进一步扩展到任意维度。在多维空间中，RoPE可以通过将向量的每个维度视为一个复数对（即实部和虚部），并分别应用旋转矩阵来实现。具体来说，可以将向量的每个维度两两分组，然后对每个分组应用旋转矩阵。这样，每个分组内的两个维度就会按照相同的旋转角度进行旋转，从而实现对位置信息的编码。而目前很多大语言模型比如Llama等都是采用旋转位置编码#动图详解transformer模型#

人工智能研究所AI

Diffutoon模型接受视频作为输入，然后根据输入的视频提取人物的线条以及相关的视频颜色，并根据人物线条与视频颜色合成动漫的视频，当然模型支持相关的编辑功能，可以在输出的视频时添加想要的效果。
图片 Diffutoon利用个性化的 stable diffusion 模型进行图片动漫风格化操作，为了增强时间一致性，模型采用了多个运动模块。这些模块基于AnimateDiff，然后结合UNet模型以保持输出视频内容的一致性。而模型中的人物线条的提取便是使用ControlNet模型，此模型可以保留人物的姿态，然后通过人物轮廓作为模型的结构输入。Diffutoon后期的动漫视频渲染过程便是使用此轮廓渲染出动漫风格的视频。图片 Diffutoon最重要的是着色，需要根据源视频的颜色色彩，与渲染的轮廓进行合成，以便输出合适的颜色，此部分使用了另外一个ControlNet模型进行上色。该模型针对超分辨率任务进行训练，因此，即使输入视频分辨率较低。该模型也能直接处理，并输出高分辨率的动漫视频。

人工智能研究所AI

ControlNet模型这个不用多做介绍了，前期我们分享 stable diffusion 时也介绍过ControlNet模型，其模型可以根据输入图片提取人物模型框架，进而可以有效控制 stable diffusion 的出图样式，控制人物的姿态。而最近其ControlNet的作者发布了一款可以生成图片绘制的模型Paints-UNDO。其模型可以输入一张图片，然后生成对应图片的绘制过程，真的觉得这个图片就是自己绘制的。
Paints-Undo 是一个旨在提供人类绘画行为的基础模型，“Paints-Undo”这个名称的灵感来自于模型的输出看起来就像在数字绘画软件中多次按下“撤消”按钮（通常是 Ctrl+Z）。然后你就可以看到图片的绘制过程了。Paints-Undo 提供了一系列模型，这些模型将图像作为输入，然后输出该图像的绘图序列。该模型展示了各种绘图行为，包括素描、着墨、着色、变换、左右翻转、颜色曲线调整、改变图层的可见性，甚至改变绘图过程等。

人工智能研究所AI

Meta发布Llama3.2多模态模型，支持移动设备
Meta发布Llama 3.2，其中包括小型和中型视觉 LLM大语言模型（11B 和 90B）以及适合边缘和移动设备的轻量级纯文本模型（1B 和 3B），也开源了包括预训练和指令调整版本。 Llama 3.2 1B 和 3B 模型支持 128K token 的上下文长度，在同类产品中处于领先地位，这些模型开源第一天就适用于高通Qualcomm 和联发科硬件，并针对 Arm 处理器进行了优化。 Llama 3.2 11B 和 90B 视觉模型得到了广泛生态系统的支持，是其相应文本模型的直接替代品，同时在图像理解任务上的表现优于封闭模型（例如 Claude 3 Haiku）。与其他开放多模态模型不同，预训练和对齐模型都可以使用 torchtune 针对自定义应用程序进行微调，并可以使用 torchchat 在本地部署。 Llama 3.2 系列中最大的两个模型 11B 和 90B 支持图像推理用例，例如文档级理解（包括图表和图形）、图像字幕以及视觉基础任务 Llama 3.2 视觉模型在图像识别和一系列视觉理解任务上与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 相媲美。3B 模型在遵循指令、总结、快速重写和工具使用等任务上的表现优于 Gemma 2 2.6B 和 Phi 3.5-mini 模型，而 1B 模型与 Gemma 相媲美。作为首批支持视觉任务的 Llama 模型，11B 和 90B 模型需要支持图像推理的全新模型架构。为了添加图像输入支持，meta训练了一组适配器权重，将预训练的图像编码器集成到预训练的语言模型中。适配器由一系列交叉注意层组成，这些层将图像编码器表示输入到语言模型中。训练流程由多个阶段组成，从预训练的 Llama 3.1 文本模型开始。首先，添加图像适配器和编码器，然后在大规模噪声（图像、文本）对数据上进行预训练。接下来，在中等规模的高质量领域内和知识增强的（图像、文本）对数据上进行训练。在后期训练中，使用与文本模型类似的方法，在监督微调、拒绝采样和直接偏好优化方面进行多轮对齐。利用 Llama 3.1 模型生成合成数据，在域内图像的基础上过滤和扩充问题和答案，并使用奖励模型对所有候选答案进行排名，以提供高质量的微调数据。还添加了安全缓解数据，以生成具有高安全水平的模型，同时保留模型的有用性最终结果是一组可以同时接收图像和文本提示并深入理解和推理两者组合的模型。这是 Llama 模型向拥有更丰富代理能力迈出的又一步。在 1B 和 3B 模型上使用了两种方法（修剪和提炼），使其成为首批能够高效适应移动设备的高性能轻量级 Llama 模型。修剪能够缩小 Llama 群中现有模型的大小，同时尽可能多地恢复知识和性能。对于 1B 和 3B 模型，采用了从 Llama 3.1 8B 中一次性使用结构化修剪的方法。这涉及系统地移除网络的某些部分并调整权重和梯度的大小，以创建一个更小、更高效的模型，同时保留原始网络的性能

人工智能研究所AI

NVIDIA发布自动驾驶新模型框架Hydra-MDP
自动驾驶汽车的开发竞赛不是短跑，而是一场永无止境的铁人三项赛，其中有三个不同但至关重要的部分组成：AI 训练、AI自动模拟和自动驾驶。每个部分都需要自己的加速计算平台，而专为这些步骤构建的全栈系统共同构成了一个强大的人工智能系统。 Hydra-MDP 提供了一个通用框架，展示了如何通过基于规则的规划器增强基于机器学习的规划。这种集成系统确保模型不仅模仿人类的驾驶行为，还遵守交通规则和安全标准，解决了传统模仿学习的局限性。Hydra-MDP 的数据驱动缩放定律证明了其稳健性和适应性。通过使用具有大量数据和 GPU 预训练基础模型，Hydra-MDP 展示了其可扩展性和持续改进的潜力。为了实现这一点，首先在NVIDIA DGX等 AI 超级计算机上训练模型。然后使用NVIDIA Omniverse平台在NVIDIA OVX系统上运行，在模拟中对其进行测试和验证，最后进入正式的车辆系统中，NVIDIA DRIVE AGX平台通过模型实时处理传感器数据。

人工智能研究所AI

DiPIR：从单个图像推断真实世界的环境条件，从而可以将虚拟物体插入图像或视频中，使它们在场景中看起来像真实的一样。该模型旨在解决将虚拟物体插入图像或视频中的问题，使它们看起来像是真实存在于场景中。传统方法在处理光照、阴影和反射时通常无法实现完全的真实感。而DiPIR技术，可以将任意虚拟物体插入到图片或视频中，并使其融入原始图像或视频中，使其看起来像是真实存在于场景中。

人工智能研究所AI

Transformer计算复杂度为何是序列长度平方
Transformer 模型的计算复杂度为O(n^2)，主要是由于其自注意力机制的计算复杂度导致的。在 Transformer 中，自注意力机制是实现序列建模的关键部分。对于一个输入序列长度为n的 Transformer 模型，自注意力机制的计算复杂度为O(n^2)。这是因为每个位置都需要计算与其他位置的相似度，并且这些相似度用于加权求和得到每个位置的表示。具体来说，计算注意力矩阵所需的 FLOPs（浮点运算次数）按序列长度的平方暴增，导致对单个序列的自注意力操作的计算复杂度为O(hdn^2)，其中h是注意力头数，d是 key 和 query 的维度，n是文本序列的长度。 Transformer模型的计算复杂度是一个复杂而多维的概念，它受到多个因素的影响。而平时说的O(n^2)仅仅是自注意力机制的计算复杂度，其整个transformer 模型的计算复杂度还有其他模块的组合。模型大小： Transformer模型由多个编码器和解码器组成，每个编码器和解码器都包含多个层和多个注意力头。这些层的数量和注意力头的数量会直接影响模型的计算复杂度。每个层中包含多个全连接层和多头注意力层，这些层的参数数量和计算量都是模型复杂度的重要组成部分。前馈神经网络： Transformer模型中的前馈神经网络是每个位置独立应用的，因此其计算复杂度为O(N)。然而，由于前馈神经网络通常位于自注意力机制之后，并且可能包含多个层，因此其总体计算量也不容忽视。编码器和解码器层的堆叠：在一个标准的Transformer模型中，通常会堆叠多个编码器和解码器层。假设有L个编码器和解码器层，则整个模型的计算复杂度可以表示为O(L*N^2)。参数数量： Transformer的复杂度还取决于每个头的参数数量，每个头的参数数量为O(d^2)，其中d为输入的维度。因此，Transformer的复杂度也可以表示为O(hd^2)，其中h为头的数量。矩阵运算： Transformer模型中的许多操作都涉及矩阵运算，如矩阵乘法、加法等。这些运算的复杂度也会影响整个模型的计算复杂度。优化技术：为了降低Transformer模型的计算复杂度，研究人员提出了许多优化技术，如稀疏注意力、分层注意力等。这些技术可以在保持模型性能的同时降低计算复杂度。#动图详解Transformer

人工智能研究所AI

前期我们介绍过很多语音合成的模型，比如ChatTTS，微软语音合成大模型等，随着大模型的不断进步，其合成的声音基本跟真人没有多大的区别。本期介绍的是字节跳动自家发布的语音合成模型Seed-TTS。
Seed-TTS 推理包含四个功能模块： (1) 语音标记器从参考语音中学习标记信息。 (2)自回归语言模型根据条件文本和语音生成语音标记。 (3) 扩散变换器模型以从粗到细的方式生成语音标记的连续语音表示。 (4) 声学声码器从扩散输出中生成更高质量的语音。系统模型框架 Seed-TTS是一个大规模自回归文本转语音 (TTS) 模型，能够生成与人类语音几乎没有区别的语音。 Seed-TTS 作为语音生成的基础模型，在语音上下文学习方面表现十分出色，在说话者相似度和自然度方面的表现在客观和主观评估方面都与真实人类语音相匹配。 Seed-TTS 对各种语音属性（例如情感）提供卓越的可控性，并且能够为说话者生成高度表现力和多样化的语音。Seed-TTS 可以根据说话者的声音，模仿成另外一个语言的语音，且情感，音色等跟原始声音没有太大区别。

人工智能研究所AI

Luma 发布了 Dream Machine，这是一种人工智能模型，旨在根据文本指令和图像创建高质量、逼真且奇幻的视频。 Dream Machine 建立在可扩展、高效、多模式的 Transformer 架构之上，直接在视频上进行训练，使其能够生成物理上准确、一致且充满动作的场景。且任何人都可以直接在Luma上使用Dream Machine 建立自己的视频。
Dream Machine 是 Luma 前沿生成模型系列中的第一款产品，旨在通过图像、视频、文本和其他富有表现力的输入激发创造力。与之前的图像动画模型不同，Dream Machine 是一种真正的视频生成模型，速度和功能使其与众不同。Luma 致力于不断提高其效率，确保梦想家不受限制。为了打造 Dream Machine，Luma 与 Amazon Web Services (AWS) 合作，并利用了其顶级 H100 训练基础设施 SageMaker HyperPod。该模型的早期反馈非常积极，反映了无数创意思维的解放。进入Luma的网站，进入眼帘的便是使用Luma AI 生成的精美视频，从官方发布的视频来看，其质量还是相当的高的，无论是清晰度，连贯性都是很丝滑，而直接点击右上角的 try now 便可以尝试Dream Machine的文生视频的能力。就像官方介绍的一样，虽然Dream Machine是一个高质量的AI系统，但是luma 免费给大家使用。

人工智能研究所AI

Meta AI隆重推出4050亿参数Llama3.1大模型

人工智能研究所AI

ChatTTS是专门为对话场景设计的文本转语音模型，例如LLM助手对话任务。它支持英文和中文两种语言。最大的模型使用了10万小时以上的中英文数据进行训练。ChatTTS是一款强大的对话式文本转语音模型。它有中英混读和多说话人的能力。ChatTTS不仅能够生成自然流畅的语音，还能控制笑声，停顿，语气词啊等副语言现象。这个韵律超越了许多开源模型
对话式 TTS: ChatTTS针对对话式任务进行了优化，实现了自然流畅的语音合成，同时支持多说话人。细粒度控制: 该模型能够预测和控制细粒度的韵律特征，包括笑声、停顿和插入词等。更好的韵律: ChatTTS在韵律方面超越了大部分开源TTS模型。同时提供预训练模型，支持进一步的研究。

人工智能研究所AI

Transformer计算复杂度为何是序列长度平方
Transformer 模型的计算复杂度为O(n^2)，主要是由于其自注意力机制的计算复杂度导致的。在 Transformer 中，自注意力机制是实现序列建模的关键部分。对于一个输入序列长度为n的 Transformer 模型，自注意力机制的计算复杂度为O(n^2)。这是因为每个位置都需要计算与其他位置的相似度，并且这些相似度用于加权求和得到每个位置的表示。具体来说，计算注意力矩阵所需的 FLOPs（浮点运算次数）按序列长度的平方暴增，导致对单个序列的自注意力操作的计算复杂度为O(hdn^2)，其中h是注意力头数，d是 key 和 query 的维度，n是文本序列的长度。 Transformer模型的计算复杂度是一个复杂而多维的概念，它受到多个因素的影响。而平时说的O(n^2)仅仅是自注意力机制的计算复杂度，其整个transformer 模型的计算复杂度还有其他模块的组合。模型大小： Transformer模型由多个编码器和解码器组成，每个编码器和解码器都包含多个层和多个注意力头。这些层的数量和注意力头的数量会直接影响模型的计算复杂度。每个层中包含多个全连接层和多头注意力层，这些层的参数数量和计算量都是模型复杂度的重要组成部分。前馈神经网络： Transformer模型中的前馈神经网络是每个位置独立应用的，因此其计算复杂度为O(N)。然而，由于前馈神经网络通常位于自注意力机制之后，并且可能包含多个层，因此其总体计算量也不容忽视。编码器和解码器层的堆叠：在一个标准的Transformer模型中，通常会堆叠多个编码器和解码器层。假设有L个编码器和解码器层，则整个模型的计算复杂度可以表示为O(L*N^2)。参数数量： Transformer的复杂度还取决于每个头的参数数量，每个头的参数数量为O(d^2)，其中d为输入的维度。因此，Transformer的复杂度也可以表示为O(hd^2)，其中h为头的数量。矩阵运算： Transformer模型中的许多操作都涉及矩阵运算，如矩阵乘法、加法等。这些运算的复杂度也会影响整个模型的计算复杂度。优化技术：为了降低Transformer模型的计算复杂度，研究人员提出了许多优化技术，如稀疏注意力、分层注意力等。这些技术可以在保持模型性能的同时降低计算复杂度。#动图详解transformer模型#