NeurIPS 2024 | 用高斯邻域最小化提升视觉提示词微调在长尾视觉识别上的性能
视觉定位任务入门必读,十年发展系统性综述回顾
Talk预告|北京大学周嘉懿:Language Feedback - 大模型价值观对齐的催化剂
阿里通义推出时间线检索生成框架,由简短标题重塑新闻事件脉络
Talk预告|CMU LTI 于子淳:MATES - 基于模型感知数据选择的高效预训练
AAAI 2025 | SparseViT:以非语义为中心、参数高效的稀疏化视觉Transformer
阶跃推出新型注意力机制:KV缓存消耗直降93.7%,性能不减反增
通义实验室提出WebWalker:对RAG的二维升级,解锁复杂信息检索新技能
AAAI 2025 | TrustUQA:统一结构化数据问答的可信框架
从传统视频处理中获取灵感,AI视频生成稀疏加速器ViDA斩获ASP-DAC’25最佳论文奖
理解生成协同促进?华为诺亚提出ILLUME,15M数据实现多模态理解生成一体化
带有缺失模态的深度多模态学习的技术综述
AAAI 2025 | TextRefiner:内部视觉特征作为属性知识实现局部对齐
Talk预告|上海交通大学唐安妮:VidTok - 一套开源的全能视频Tokenizer
北航&ZGCLAB提出XRAG:首个高级检索增强生成的基准测试
Talk预告|复旦大学徐际岚:联合第一视角 - 第三视角视频理解
论文解读|OS Agents综述:MLLM智能体实现计算设备通用控制
COLING 2025 | 多智能体让多模态输入的3D AIGC成为可能
EMNLP 2024 | 大语言模型的概念知识编辑
Talk预告|JHU博士梅康夫:潜空间扩散模型(LDM)在高效高质量图像生成中的缩放与蒸馏特性
NeurIPS 2024 | 用高斯邻域最小化提升视觉提示词微调在长尾视觉识别上的性能
视觉定位任务入门必读,十年发展系统性综述回顾
Talk预告|北京大学周嘉懿:Language Feedback - 大模型价值观对齐的催化剂
阿里通义推出时间线检索生成框架,由简短标题重塑新闻事件脉络
Talk预告|CMU LTI 于子淳:MATES - 基于模型感知数据选择的高效预训练
AAAI 2025 | SparseViT:以非语义为中心、参数高效的稀疏化视觉Transformer
阶跃推出新型注意力机制:KV缓存消耗直降93.7%,性能不减反增
通义实验室提出WebWalker:对RAG的二维升级,解锁复杂信息检索新技能
AAAI 2025 | TrustUQA:统一结构化数据问答的可信框架
从传统视频处理中获取灵感,AI视频生成稀疏加速器ViDA斩获ASP-DAC’25最佳论文奖
理解生成协同促进?华为诺亚提出ILLUME,15M数据实现多模态理解生成一体化
带有缺失模态的深度多模态学习的技术综述
AAAI 2025 | TextRefiner:内部视觉特征作为属性知识实现局部对齐
Talk预告|上海交通大学唐安妮:VidTok - 一套开源的全能视频Tokenizer
北航&ZGCLAB提出XRAG:首个高级检索增强生成的基准测试
Talk预告|复旦大学徐际岚:联合第一视角 - 第三视角视频理解
论文解读|OS Agents综述:MLLM智能体实现计算设备通用控制
COLING 2025 | 多智能体让多模态输入的3D AIGC成为可能
EMNLP 2024 | 大语言模型的概念知识编辑
Talk预告|JHU博士梅康夫:潜空间扩散模型(LDM)在高效高质量图像生成中的缩放与蒸馏特性