本期为TechBeat人工智能社区592线上Talk。

北京时间5月16日(周四)20:00,南加州大学助理教授马学喆的Talk将准时在TechBeat人工智能社区开播!

他与大家分享的主题是:Megalodon-针对大规模预训练的Mega改进,届时将向大家介绍Megalodon架构一种针对两年前提出的Mega架构的改进版本,旨在提高大规模长上下文的预训练和推理效率。

Talk·信息

主题:Megalodon-针对大规模预训练的Mega改进

嘉宾: 南加州大学助理教授 马学喆

时间:北京时间5月16日(周四)20:00

地点:TechBeat人工智能社区

http://www.techbeat.net/

Talk·介绍

本文介绍了Megalodon架构。Megalodon是针对我们两年前提出的Mega架构的改进版本,旨在提高大规模长上下文的预训练和推理效率。针对于Mega架构的几个局限性,Megalodon进一步提出了多个新的技术来提高它的学习能力和训练稳定性,包括Complex Exponential Moving Average (CEMA), Timestep Normalization, Normalized Attention mechanism以及Pre-Norm with two-hop residual configuration.在与Llama2模型完全相同的2T的预训练数据上,我们训练了一个7B大小的Megalodon模型,使得我们可以和Llama2-7B进行完全公平的比较。最终,Megalodon取得了比Llama2更好的training loss。同时,在多个benchmark上Megalodon的表现也明显好于同样大小的Llama2模型。

Talk大纲

1. 长上下文处理的重要性与挑战

2. Mega架构的介绍

3. 从Mega到Megalodon的改进

4. Megalogon的效果和不足

Talk·预习资料

打开网易新闻 查看精彩图片

论文链接: https://arxiv.org/abs/2404.08801

代码链接: https://github.com/XuezheMax/megalodon


Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call和问题,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

打开网易新闻 查看精彩图片

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

打开网易新闻 查看精彩图片

马学喆

南加州大学 · 助理教授

马学喆博士现任南加州大学计算机学院研究助理教授。其研究方向为深度学习,表征学习与自然语言处理。他于2010年在上海交通大学ACM班获得本科学位。并在2020年于卡耐基梅隆大学语言技术研究所(CMU LTI)获得博士学位。他已在机器学习和自然语言处理顶级会议ICML, ICLR, NeurIPS, ACL,NAACL,EMNLP等发表三十余篇论文,并在这些会议中任领域主席。

个人主页: https://www.techbeat.net/grzytrkj?id=17439

-The End-

打开网易新闻 查看精彩图片

如果你也想成为讲者

自荐 / 推荐

单人Talk | 团队专场 | 录播or直播 | 闭门交流

多种方式任你选择!

推荐讲者成功也有奖励哦~

关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>

预约本期Talk