机器之心报道
编辑:Panda、杜伟
当结构化数据也变成一个模态,哪家的大语言模型能脱颖而出呢?
现在正是多模态大模型的时代,图像、视频、音频、3D、甚至气象运动都在纷纷与大型语言模型的原生文本模态组合。而浙江大学及其计算机创新技术研究院的一个数十人团队也将结构化数据(包括数据库、数仓、表格、json 等)视为了一种独立模态。
基于这一视角,依托 Qwen,他们研发了 TableGPT 系列模型。现如今,这个模型已经更新到了第 2 代,性能表现较之前代已有大幅提升:在某些基准上,TableGPT2 能够媲美甚至优于 GPT-4o!或者按团队负责人赵俊博博士的说法:「目前通用大模型在许多结构化数据相关的任务上的表现仍然较弱,TableGPT2 在相关任务的榜单上铁腕刷榜 —— 各类相关任务刷出去平均 40 个点。」
- 论文标题:TableGPT2: A Large Multimodal Model with Tabular Data Integration
- 论文地址:https://arxiv.org/pdf/2411.02059
- TableGPT 智能体:https://github.com/tablegpt/tablegpt-agent
- Hugging Face:https://huggingface.co/tablegpt/TableGPT2-7B
该团队表示:「提出 TableGPT2 的关键动机是解决当前 LLM 在数据驱动型真实世界应用中的限制。」
当今的许多 LLM 的设计目标就是以端到端的方式运行,而没有整合外部数据。但该团队认为这种方法存在固有缺陷。举个例子,如果你想用 LLM 来帮助你挑选股票,但如果不给它提供实时的市场信息,它的建议就根本不可能靠谱;更别说必需病人病历和各类过往的指标数据才能做出准确判断的医疗 AI 应用了。具身智能中的灵巧手的触觉信号以及多个传感器中的各类 「觉」 也都是结构化信息。
同时,即便 LLM 已经整合了外部数据源(如数据库),其性能也往往无法达到最优。目前常见的整合思路包括通过工具(如 natural-language-to-sql / NL2SQL)来调用外部数据源以及通过更长的长下文和新架构来纳入外部数据源。但这些方法要么难以用于复杂场景,要么就效率低下,不实用。
基于这些思考,该团队认为在整合外部数据源时需要根本上的范式转变。TableGPT2 也由此而生,该模型的设计目标是直接且高效地整合和处理表格数据,克服当前 LLM 的固有限制,进而实现生产级部署。
之前 LLM 和 VLM 方面的研究已经证明了大规模多样化数据集的重要性。其实表格数据也同样多,并且也同样重要。据估计,全球超过 70% 的数据都是以结构化的表格形式存储的,包括数据库和电子表格。
所以,资源浩瀚,也因此,开发大规模表格模型极具潜力!该团队表示:「通过使用大规模表格及其 schema 元数据的数据集,我们的目标是探索能否有效地建模这些数据格式,从而得到可用于商业智能等应用的功能强大的模型。」
TableGPT2 的表格数据编码器是该团队全新设计的,其重在建模表格数据的结构和内容。这让 TableGPT2 可以捕获 schema 层面和单元格层面的信息,从而有望为表格大模型带来文本模型和视觉模型所经历过的那种巨大提升。
热门跟贴