我们团队是达摩院-基础视觉智能团队,长期致力于基础视觉技术的研究和落地,在CVPR/NeurIPS/ICML/ICLR等顶会上发表论文50+。团队主要研究方向包括大规模表征学习、视觉生成、2D数字人,大模型分布式训练加速等。我们的同学均来自海内外知名高校或者实验室,在这里大家可以和不同技术方向的优秀同学共同交流共同进步。同时我们具有充足的计算资源和数据资源,欢迎基础知识扎实、有进取心、希望做出有世界影响力算法的同学加入。

打开网易新闻 查看精彩图片

计算机视觉算法工程师

性质:校招(2023届)/实习(长期)

坐标:杭州、北京

岗位描述

【大规模表征学习】:多模态表征模型作为主要基础模型之一,其表征能力的好坏决定了多种下游任务上模型的效果(如图文检索、图像生成、VQA等等),因此受到国内外顶尖高校、科技公司的广泛关注。结合海量视觉/语言预训练数据,我们立足于contrastive和generative等范式的统一表征模型训练和基于大规模表征模型的下游任务迁移算法的的研发与创新。

【视觉生成】:生成算法在学术、工业界都受到极大的关注。OpenAI的DALL-E/DALL-E2系列、英伟达的 GauGAN、谷歌的Imagen/Video Diffusion展现了生成模型在图像/视频生成、编辑上的强大能力;我们将一起全方位开展基于diffusion model、StyleGAN、GPT等普适性生成器的改进、优化和创新,解决目前生成算法的生成质量、多样性、可控性、采样效率等问题,研究核心是多模态生成基础模型。

【2D数字人】:2D数字人技术是一项基于视觉生成技术打造的应用型技术,支持输入的音频与文本信息,驱动2D真人数字人形象,生成视频。作为技术内容型的解决方案,支持人脸口型、表情以及人体的智能编辑与生成,可作为高效的内容创作工具,广泛适用于多媒体播报、知识教育、内容宣导等场景。

【视频云】:视频云是视频内容理解技术在阿里云上的重要出口。将视频表征、分类与检索的算法能力与媒资管理、云剪辑等产品能力结合。通过AI能力赋能,提高视频媒资在生产、审核、分发与管理的效率,打造智能媒资平台,在新闻资讯、互动娱乐、教育培训、体育竞赛等行业都有广泛的应用。

【超大模型训练加速】:大模型的时代已经悄然而至,如何训练百亿、千亿的大模型,为下游任务赋能,已经成为一个研究热门。团队一直致力于大模型训练技术的研究,包括:超大规模分类,INT8训练加速,梯度压缩,Gossip通信优化等,随着网络的规模越来越大、网络的结构越来越新,我们希望不断突破和创新。

岗位要求

1. 海内外2023年应届毕业生 + 可以长期实习的实习生;

2. 具有扎实的计算机视觉或机器学习算法基础,有成果发表在CVPR、ICCV、ECCV、NeurIPS、ICML、ICLR、TPAMI等国际顶级会议期刊者优先;

3. 熟练掌握C/C++、Java、Python等至少一门语言 ,ACM/ICPC、topcoder等编程比赛获奖者优先;

4. 乐于沟通、分享、交流,有激情,责任心强,具备良好的团队合作、沟通能力。

投递方式

邮箱:zhaokang.zk@alibaba-inc.com

邮件主题标明:2023校招申请-姓名-电话