深度求索推出 DeepSeek-V2:最先进的开源 MoE 模型!

亮点:

✅ 在 AlignBench 中排名前三,超过 GPT-4,接近 GPT-4-Turbo‍‍

✅ 在 MT-Bench 中排名前列,可与 LLaMA3-70B 匹敌,超过 Mixtral 8x22B‍‍

✅ 擅长数学、代码和推理‍

✅ 支持 128K 上下文窗口‍

特点:

✅ 创新的架构,拥有2360亿参数,其中210亿个活跃参数‍‍

✅ 无与伦比的 API 价格,同时保持真正的开源和非商业性‍‍

DeepSeek-V2 综合能力

在目前大模型主流榜单中,DeepSeek-V2 均表现出色

✅ 中文综合能力(AlignBench)开源模型中最强,与 GPT-4-Turbo,文心 4.0 等闭源模型在评测中处于同一梯队

✅ 英文综合能力(MT-Bench)处于第一梯队,英文综合能力(MT-Bench)与最强的开源模型 LLaMA3-70B 处于同一梯队,超过最强 MoE 开源模型 Mixtral8x22B

✅ 知识、数学、推理、编程等榜单结果位居前列

✅ 开源模型支持 128K 上下文,对话官网/API 支持 32K 上下文

价格背后都是技术‍‍‍

DeepSeek-V2最大的重点来了,上价格:‍

和一众友商比一下:

不要以为这只是个价格战,这个价格的背后都是技术,心动不如行动,吓得我连夜改API,这个价格你受得了吗?

模型架构

DeepSeek-V2 是一个强大、经济、高效的 MoE 语言模型,在注意力机制和稀疏层方面采用了卓越的架构设计:

MLA(Multi-head Latent Attention):一种更好、更快的注意力,可通过减少 KV 缓存确保高效推理‍‍

DeepSeekMoE:一种新颖的稀疏架构,可通过稀疏计算以经济的成本训练强大的模型。

更多详情,请看技术报告和代码:

https://github.com/deepseek-ai/DeepSeek-V2

使用

与DeepSeek-V2聊天:

http://chat.deepseek.com

即用即付的DeepSeek-V2应用接口:

http://platform.deepseek.com

DeepSeek-V2完全开源,免费用于商业用途:

http://huggingface.co/deepseek-ai

⭐星标AI寒武纪,好内容不错过

用你的在看告诉我~

牛夫人