大模型火爆至今,不管是国外的OpenAI还是国内的“百模大战”,我们看到,行业讨论的重点,已经从最初的如何聊天对答,进化到如何落地具体商业场景、发挥生产力工具作用中。落地具体场景,既需要大模型的通用能力,也考验专业能力。如何看待大模型通用能力和专业能力之间的关系?如何拓展更多场景应用?或许云知声在大模型应用上,给大模型领域带来了新实践与认知。
通用能力OR专业能力?追求同样参数前提下,更高的匹配准确度
大模型之间目前不仅通用能力有很大差距,在专业能力方面实际上也有着很大差距。目前的很多榜单,一般是衡量通用能力,但很多时候市场特别需要大模型在某些领域具备专业能力。在专业领域,云知声认为大模型应该做到比专业人士做得更专业。当然,要达到这个预期水平还有难度。
正如云知声CEO黄伟所说:“对于通用大模型来说,追求参数量也没错,但更要追求同样参数前提下,更高的匹配准确度,这也正是云知声在做的事情。”云知声的大模型名为“山海”,意指打通大模型企业到具体场景、应用之间的壁垒,山海皆可平。
在山海大模型的大早上,云知声AI全栈技术与行业应用场景深度结合,解决行业深层问题,这使得山海大模型的能力在落地广度(多种物联网场景)和深度(在医疗等知识密集型行业中)方面都有显著提升。
云知声在多个行业深耕多年,积累了大量行业经验和高质量的训练数据。比如在C-Eval评测榜单的水平也是位居前排的;在《中文大模型基准测评2024上半年报告》中取得国内大模型第四名成绩;基于山海大模型孵化的UNIGPT-MED 模型,在PromptCBLUE医疗大模型评测中也赢得了A、B榜双榜冠军。
但榜单虽然可以测试部分通用能力或者专业能力,但行业落地时遇到的问题,往往都是榜单里的测试题所覆盖不到的,而这些就需要行业“懂得如何做”的积累。所以,云知声更愿意将目光放在行业问题的解决上,也就是具体的行业应用。
实现严肃行业应用,云知声专业能力获认可
在应用方面,以医疗领域为例,云知声在医疗场景开辟过很多国内首次或者首批。比如,2016 年云知声“智慧医疗语音录入系统”落地北京协和医院,就是国内首家将医疗语音录入系统落地的方案。再比如,2023年上半年大模型落地北京友谊医院的方案,门诊病历生成系统效果已经受到友谊医院的一致认可。
医疗场景应用难度尤为高,必须追求低容错率。一家医院可能有几百位医生,每天要面对上万的病人,无数医患沟通的过程,既沉淀丰富的知识,也混杂很多冗余甚至错误的信息。而大模型在医疗场景,必须追求所有知识来源都经过专业验证。
其实医疗领域的数据,相比于通用大模型是少的,但也有高质量数据稀缺、更重视数据隐私保护、专业知识复杂、经验化知识难以结构化等难题。我们之前帮助很多企业和医院打造的知识图谱平台,就是基于自然语言处理和知识图谱技术的全生命周期知识管理平台,在很多行业具有长期的高质量数据积累,这也是山海大模型生成内容正确率的重要保证。在山海大模型的预训练阶段,云知声有海量的医学病历、医学教材、临床指南和医学文献等数据,在对齐阶段还应用人机结合构建百万级的病历理解、医学考试和医学知识问答等指令学习数据,才能将严肃场景中的幻觉问题控制在低水平,让生成式AI在能够在医生的完整工作流中持续发挥作用。
事实上,云知声不仅在医疗领域有很多落地应用,在车载场景、政务、轨交等领域都有落地,也帮助康佳等企业打造智慧客服系统,用大模型能力为我们的医疗、智慧生活等客户创造价值。
如今,大模型时代已来,在过去决策式AI时,为了解决客户的问题,我们往往需要针对特定场景进行定制化开发,为每个用户定制解决方案就会导致成本高、收益不大。而大模型本身具备强大的泛化能力和通用性,哪怕更聚焦严肃医疗场景,但经过医疗场景锤炼过的大模型能力,依然可以在更多行业复用。而云知声正致力于政务、车载、轨交、智能客服、金融等多个领域,并已经有实际应用,能更好地解决行业中存在的真问题。
热门跟贴