本期为TechBeat人工智能社区660线上Talk。

北京时间2月12日(周三)20:00,CMU LTI博士生于子淳的Talk将准时在TechBeat人工智能社区开播!

他与大家分享的主题是:“MATES - 基于模型感知数据选择的高效预训练”,届时他将介绍基于模型感知的数据选择方法MATES。

Talk·信息

主题:MATES - 基于模型感知数据选择的高效预训练

嘉宾:CMU LTI · 博士生 - 于子淳

时间:北京时间2月12日(周三)20:00

地点:TechBeat人工智能社区

http://www.techbeat.net/

Talk·介绍

有效的数据选择能显著提升模型的预训练效率。在本次Talk中,我会介绍基于模型感知的数据选择方法MATES,即基于影响函数来动态追踪模型的数据偏好,并训练一个小的数据影响模型来高效地为预训练模型选择其最需要的数据。MATES将预训练效率提升了超过两倍,并在公开的数据选择评测榜单DCLM上取得了第一的位置。

Talk大纲

1. 背景 - 预训练数据选择的重要性和意义

2. 动机与问题 - 比较当前数据选择方法的优劣势,引出我们需要基于模型感知的数据选择方法

3. 解决方案 - MATES的主要贡献,更准确的影响函数计算以及如何用小的数据影响模型来拟合影响函数

4. 实验结果和分析 - DCLM榜单以及可视化结果

5. 结论和未来展望 - 总结MATES的主要发现和未来的拓展工作

Talk·预习资料

论文链接: https://arxiv.org/abs/2406.06046 代码链接: https://github.com/cxcscmu/MATES


Talk·提问交流

在Talk界面下的【交流区】参与互动!留下你的打call和问题,和更多小伙伴们共同讨论,被讲者直接翻牌解答!

你的每一次贡献,我们都会给予你相应的i豆积分,还会有惊喜奖励哦!

Talk·嘉宾介绍

于子淳‍‍‍‍‍‍‍‍‍‍‍

CMU LTI · 博士生‍‍‍

CM U LTI博士二年级的于子淳,导师是熊辰炎教授,本科毕业于清华大学。目前的研究方向是基于数据选择的高效预训练以及影响函数。相关研究成果已经发表在NeurIPS,ACL等会议。

个人主页: https://www.techbeat.net/grzytrkj?id=43606‍‍‍‍

-The End-

如果你也想成为讲者

自荐 / 推荐

单人Talk | 团队专场 | 录播or直播 | 闭门交流

多种方式任你选择!

推荐讲者成功也有奖励哦~

关于TechBeat人工智能社区

TechBeat(www.techbeat.net)隶属于将门创投,是一个荟聚全球华人AI精英的成长社区。

我们希望为AI人才打造更专业的服务和体验,加速并陪伴其学习成长。

期待这里可以成为你学习AI前沿知识的高地,分享自己最新工作的沃土,在AI进阶之路上的升级打怪的根据地!

更多详细介绍>>

预约本期Talk