人工智能研究所AI

人工智能研究所AI

网易号

关注
765粉丝
18关注
71被推荐
IP属地:山东

10枚勋章

python人工智能领域分享

  • 字节跳动发布的Coze,可以免费使用GPT-4o模型了
    2024-06-28
  • Llama 3是Meta AI开源的第三代Llama系列模型,其新的 8B 和 70B 参数 Llama 3 模型在Llama 2的基础上,实现了更大性能的提升。由于预训练和训练后的技术改进,其Llama 3模型是当今 8B 和 70B 参数规模的最佳模型。Llama 3模型的改进大大降低了错误拒绝率,改善了一致性,并增加了模型响应的多样性。Llama 3模型在推理、代码生成和指令跟踪等功能也得到了极大的改善。
    在Nvidia官方界面,可以很容易的使用llama3-70b模型。界面提供2种使用llama3-70b的方式,一是可以直接在界面聊天框中输入内容,跟llama3-70b模型聊天,另外要给是使用Nvidia提供的API接口。 而在Nvidia官网上使用的llama3 70b模型也支持上下文记忆,模型可以记录以前的聊天记录,若模型回复英文的答案,可以让模型进行翻译,其翻译效果还是很强大。
  • 谷歌发布Infini-Transformer模型—无限注意力机制长度,超越极限
    nfini-Transformer模型—无限注意力机制长度 论文介绍了一种高效的方法,可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长的输入,同时保持有限的内存和计算量。论文提出的方法中的关键组件是一种称为 Infini-attention 的新型注意力机制。Infini-attention 将压缩内存整合到 vanilla 注意力机制中,并在单个 Transformer 块中构建了掩码局部注意力和长期线性注意力机制。在长上下文语言建模基准测试、100 万序列长度的密钥上下文块检索和 50 万长度的书籍摘要任务中,使用 10 亿和 80 亿参数的 LLM 证明了此方法的有效性。此方法引入了最小的有限内存参数,并为 LLM 实现了快速的流式推理。#动图详解transformer# #动图详解transformer模型#
  • 借助 Azure OpenAI GPT 等大型语言模型 (LLM) 的强大功能,AI 可以产生比以往更自然、流畅和高质量的响应。因此,在进行口头对话时,对文本转语音 (TTS) 声音的自然性和表现力的要求比以往任何时候都更高。微软发布的新一代文本转音频模型,其新的逼真声音非常适合任何需要逼真语音交互的应用程序,包括聊天机器人、语音助手、游戏、电子学习、娱乐等。
    无论是创建基于语音的聊天机器人、语音助手还是对话代理,这些新声音都将确保交互更加真实、逼真和引人入胜。与为通用目的设计的语音相比,在阅读会话和休闲文本时,针对会话优化的语音听起来更自然、更有吸引力。此外,它们甚至还包括笑声和充满停顿等感叹词,为您的虚拟对话增添人情味。 微软新一代的文本转音频服务,不仅更加逼人,更是提供了不同场景的服务,包含:对话,感叹词对话,冥想,新闻,诗歌,故事,电子学习,广告,定制服务,广播等,覆盖了生活中很多的场景。 当然除了中文,英文外,其模型还支持其他语言的语言,简直是配音的好帮手。
  • 为什么大型的LLM模型都是使用decoder only模型框架

    2024-05-28
    图片
  • OpenAI发布GPT-4o,可免费在ChatGPT中使用

    2024-05-19
    图片
  • YOLO对象检测模型更新无止境—— YOLOv9模型会不会是最终版本

    2024-05-17
    图片
  • Transformer 模型的损失函数
    2024-05-13
  • CNN卷积+Transformer打造DETR视觉模型

    2024-04-30
    图片
  • 鼓吹开源无前途,Meta却开源了Llama 3模型,无需注册在线即可使用,谁说闭源才是大模型的出路,Meta AI开源了自己的Llama 3大模型,最大参数4000亿
    Meta AI一直是人工智能领域开源领域的领导者,一边是OpenAI鼓吹闭源才是人工智能大模型的未来,但是Meta AI却开源了自己的Llama 3大模型,且Llama 3开源模型支持80亿与700亿参数,而未来更大的4000亿参数大模型还在继续训练中。其Llama 3大模型可以直接在Meta AI官网直接使用,且支持无需注册登陆即可使用,简直是开箱即用。 Llama 3是Meta AI开源的第三代Llama系列模型,其新的 8B 和 70B 参数 Llama 3 模型在Llama 2的基础上,实现了更大性能的提升。由于预训练和训练后的技术改进,其Llama 3模型是当今 8B 和 70B 参数规模的最佳模型。Llama 3模型的改进大大降低了错误拒绝率,改善了一致性,并增加了模型响应的多样性。Llama 3模型在推理、代码生成和指令跟踪等功能也得到了极大的改善。 Llama 3 中选择了相对标准的仅解码器 Transformer 架构。与 Llama 2 相比,Llama 3 使用具有 128K 标记词汇表的标记器,可以更有效地对语言进行编码,从而显著提高模型性能。为了提高 Llama 3 模型的推理效率,在 8B 和 70B 大小上采用了分组查询注意力 机制(GQA)。不得不说,transformer依然是大模型的天下。
  • 稀疏注意力集中的原理与应用
    2024-04-20
  • 7年来Google 首次更新transformer 模型,性能提升50%
    Mixture-of-Depths:动态分配Transformer模型中的计算资源。其实质也是一种transformer模型,但是提出了动态分配计算资源的问题,大大提升了50%的计算性能。传统的基于 Transformer 的语言模型在输入序列中均匀地分配 FLOPs(浮点运算次数)。MoD模型证明了 Transformer 可以学习动态地将 FLOPs分配到序列中的特定位置,并在模型的不同层级中优化序列的分配。MoD方法通过限制在给定层中可以参与自注意力和 MLP 计算的 token 数量来强制执行总计算预算。 MoD 的核心思想: 设置静态计算预算: 通过限制参与每个 block(自注意力层和前馈网络层)计算的 token 数量来控制总计算量。 路由机制: 使用路由器为每个 token 生成一个权重,表示该 token 参与 block 计算的优先级。 Top-k 选择: 选择权重最高的 k 个 token 参与 block 计算,保证计算图和张量大小保持静态。 MoD 的优势: 提高计算效率: 相比于传统 Transformer 模型,MoD 模型在每个前向传递中使用更少的计算量,从而提高了训练和推理速度。 保持或提升性能: 实验结果表明,在相同的计算预算下,MoD 模型可以达到与传统 Transformer 模型相当甚至更好的性能。 灵活的资源分配: MoD 模型可以根据上下文动态地将计算资源分配给更需要处理的 token,从而更好地理解输入序列。#动图详解Transformer
  • ChatGPT无需用户登陆网站,就可以任意使用了,这意味着任何人只要输入ChatGPT的官方网站,就可以直接使用ChatGPT。
    ChatGPT在2023年爆火的时候,很多人为了能体验一把ChatGPT费劲了脑汁。如何科学上网,如何注册ChatGPT账号,如何使用虚拟号接受注册验证码等等。使用一个ChatGPT,感觉像是一个十分复杂繁琐的工作。甚至很多人为了体验ChatGPT,而去购买一个ChatGPT账号。 现在无需复杂的任何流程了,OpenAI官方宣布,任何人无需注册登陆OpenAI的官方账号就可以直接使用ChatGPT了。登陆ChatGPT的网站,无论是否登陆了账号,都可以使用ChatGPT。 1. 也许是大模型的不断竞争,让ChatGPT也考虑如何更加容易使用。毕竟现在Google发布的Gemini以及开源的Gemana,还有mistral,Claude3等大模型的发布也抢占了一些份额,且很多模型直接对比GPT-4模型,并没有对比ChatGPT。 2. OpenAI一直想打造AI搜索引擎,若人人可以直接使用,是不是跟Google搜索一下,但是比搜索更直接,答案更明确。 3. 让用户升级GPT-4已经更高的模型,也许GPT-5模型也会在不远的将来公之于众。
  • Transformer能够有效地处理长距离依赖问题,主要得益于其自注意力机制。在计算序列中任意两个位置之间的关联时,Transformer无需考虑它们在序列中的距离,因此能够更好地捕捉长距离依赖。这种机制突破了传统RNN和LSTM在处理长序列时可能遇到的梯度消失或梯度爆炸问题,使得Transformer在长距离依赖关系的建模上更具优势。
    相较于传统的RNN和LSTM,Transformer还具有以下显著优势: 1. 自注意力机制:Transformer使用了自注意力机制,可以同时考虑输入序列中的所有位置,从而能够更好地捕捉长距离依赖关系。 2. 没有循环结构:传统的RNN和LSTM模型是基于循环结构的,存在梯度消失和梯度爆炸的问题,限制了其处理长距离依赖关系的能力。而Transformer没有循环结构,可以更好地处理长距离依赖问题。 3. 并行计算:Transformer可以进行并行计算,不同位置的信息可以同时进行处理,加快了训练速度。 4. 位置编码:为了补偿缺乏内在的位置信息,Transformer通过特殊的位置编码将序列位置信息加入到输入嵌入中,使得模型能够理解和利用位置之间的相对和绝对距离。 5. 扩展性:随着上下文长度的增长,RNN和LSTM的计算复杂性和内存需求会线性增加,而在Transformer中,尽管自注意力计算的复杂度是二次的,但通过各种优化方法和技术(例如稀疏注意力)可以缓解这一问题。#动图详解Transformer
  • Swin Transformer 是一种视觉 Transformer 模型,它是一种用于图像分类、对象检测和语义分割等计算机视觉任务的强大模型。由于VIT模型使用的全局注意力机制,无法把此模型应用到分辨率比较大的图片尺寸上,由于全局注意力机制在使用大尺寸图片时,其计算复杂度将会称指数增加,而Swin transformer 模型采用窗口注意力机制的方式,大大降低了模型的计算复杂度。
    Swin transformer 主要特点: 移位窗口注意力机制:Swin Transformer 采用移位窗口注意力机制,将图像划分为不同的窗口,并在每个窗口内计算注意力。这允许模型捕获局部和全局信息,同时减少计算成本。 CNN卷积结构:Swin Transformer 采用类似卷积神经网络的结构,将图像尺寸维度不断压缩,通道维度不断提高,有助于模型捕获更加细节的图形特征。 轻量级设计:与其他 Transformer 模型相比,Swin Transformer 由于采用窗口注意力机制,大大降低了计算复杂度,使其在资源受限的设备上也能高效运行。 由于窗口注意力机制的特性,可以把输入图片扩展到更大尺寸的图片,让模型能够处理更大的输入数据#动图详解Transformer
  • Vision Transformer (ViT) 是一种基于 Transformer 的深度学习模型,用于图像分类和其他计算机视觉任务。它结合了 Transformer 在自然语言处理中的优势与计算机视觉中的卷积神经网络(CNN)的优势。
    ViT 模型的核心思想是将图像分割成一个个固定大小的patch块,然后将这些patch块视为序列数据,并使用 Transformer 进行注意力机制的计算。通过注意力机制,ViT 模型可以捕捉到图像中长距离依赖关系,同时保持对局部特征的敏感性。 ViT 模型的架构主要包括以下几个部分: 1. 图像分割:将输入图像分割成固定大小的patch图像块,例如 16x16 或 32x32。 2. 线性投影:将每个patch图像块投影到一个固定维度的向量空间中,以便与 Transformer 的输入维度匹配。此过程便是embedding 的过程 3. Transformer 编码器:使用标准的 Transformer 编码器对图像块序列进行注意力机制的计算,以捕捉图像中的长距离依赖关系。这里是有12层的编码器。 4. 分类头:在 Transformer 编码器的输出上添加一个分类头,用于预测图像的类别。用于下游任务的最终输出。 ViT 模型的优势在于它可以捕捉到图像中长距离依赖关系,同时保持对局部特征的敏感性。这使得 ViT 模型在图像分类和其他计算机视觉任务中取得了非常好的结果。 ViT 模型的成功还证明了 Transformer 在计算机视觉中的潜力,并为未来的研究提供了一个新的研究方向。
  • Llama2,Gemma,Mistral等大语言开源模型都开源免费给大家使用,但是基于这些模型的使用都要操作一堆代码,操作之繁琐。基于ollama一键安装各大开源模型,且可以本地部署使用。告别繁琐的代码编程,不用联网,本地使用大语言模型。
    ollama是一个开源的第三方大语言模型使用插件,下载ollama后,可以很方便的使用Llama2,Gemma,Mistral等大语言开源模型。首先到ollama的官网,或者GitHub链接下载ollama进行安装,其ollama支持window版本,Mac版本,以及Linux版本,可以根据自己的电脑配置下载安装。 ollama支持主流的几十种大语言模型,可以直接使用ollama run + 模型的名字来运行,若本地没有下载过相关的模型,会自动下载,大大节省了操作的流程。
  • Anthropic AI发布了Claude 3大模型,一共发布了三个版本的模型,分别是Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus,其中Claude 3 Opus是最大的模型,更加智能,但是API价格就越高。其Claude模型与GPT系列模型一样,是闭源的模型,若需要使用,需要购买API服务。若想使用免费的版本,可以使用Mistral Large大模型。
    Opus 和 Sonnet 现已可在 claude.ai 中使用,可以直接申请API进行使用。 Claude 3 Opus 是Anthropic最强大的模型,在很多人工智能测试基准上都优于其他模型,包括本科水平专家知识 (MMLU)数据库、研究生水平专家推理 (GPQA)数据库、基础数学 (GSM8K) 等。Claude 3 Opus在复杂任务上表现出接近人类水平能力,其很多基准任务已经超越了GPT-4模型。
  • 马斯克说若OpenAI更名为closeAI,其针对OpenAI的起诉讲会被撤销。很是显然马斯克针对OpenAI的创业的初衷有一定的质疑。但是无论如何OpenAI也无法更名为为close AI,其公司下的ChatGPT以及文生视频大模型Sora也不会开源。但是随着马斯克旗下公司xAI大模型的成功,其马斯克也兑现了自己开源的承诺,把3140亿参数的grok模型进行了开源。
    Grok 动力引擎便是grok-1模型,此模型拥有3140亿个训练参数。而GPT-3模型的参数是1750亿参数,差不多1.8倍左右。Grok-1 是一个由 xAI 从头开始​训练的 3140 亿参数混合专家模型。Grok-1 预训练阶段在 2023 年 10 月结束,这意味着该模型没有针对任何特定应用(例如对话)进行微调。grok在 Apache 2.0 许可下发布权重和架构 其模型是基于transformer的混合专家MoE模型。模型输入此表128*1024,输入序列长度为8192,embedding尺寸为48*128,多头注意力机制头数为48,一共有64层的解码器层,使用了8个专家模型,在选择专家模型时,使用2个专家进行结果的输出。#动图详解Transformer
  • Sora建立在DiT模型上(Scalable Diffusion Models with Transformers, ICCV 2023)
     "Scalable Diffusion Models with Transformers" 是一篇由 William Peebles 撰写的研究论文,其中提出了一种基于 Transformer 的扩散模型,用于生成高质量的图像。这种方法结合了扩散模型和 Transformer 的优点,实现了可扩展的高质量图像生成。 Transformer 是一种注意力机制的神经网络架构,最初被用于自然语言处理任务,如机器翻译和文本摘要。Transformer 的关键特点是其自注意力机制,它可以捕捉输入序列中不同位置之间的关系,后期也成功把transformer 的注意力机制应用到计算机视觉任务中。 在本论文中,作者提出了一种基于 Transformer 的扩散模型,用于生成高质量的图像。该模型通过将扩散过程分解为多个阶段,每个阶段都由一个 Transformer 来计算注意力机制。从而实现了可扩展的高质量图像生成。具体来说,该模型包括以下几个部分: 噪声分布:模型从一个简单的随机噪声分布开始,该噪声分布可以是高斯分布或均匀分布等。 扩散过程:模型通过一系列的扩散步骤将噪声分布逐步转化为目标数据分布。每一步都通过一个 Transformer 实现,该 Transformer 负责根据当前状态来预测下一个状态。 采样过程:模型通过反向的扩散过程从噪声分布生成新的样本。该过程通过一个 Transformer 实现,该 Transformer 负责根据当前状态来预测上一个状态。 损失函数:模型使用一个对数似然损失函数来训练,该损失函数用于最大化生成样本的对数似然。 该模型的主要功能是生成高质量的图像。通过结合扩散模型和 Transformer 的优点,该模型可以生成具有复杂结构和细节的图像,同时保持生成过程的可扩展性和稳定性。
正在载入...
正在载入...