技术应用 | 文档智能处理助力投行自律管理应用|合规性|底稿|投行|自律管理

文 / 中国证券业协会石永鑫张敏芳

东吴证券股份有限公司唐淑艳张子华

中信建投证券股份有限公司李剑戈殷宪晨

在投行自律管理工作中，审查工作底稿是重中之重。投行业务工作底稿是从业人员在开展投资银行业务过程中，形成的工作记录和获取的相关资料的集合。工作底稿是投资银行业务运作的基石，对确保业务的合规性、专业性、透明度和业务质量具有不可替代的作用。2023年中国证券业协会（以下简称协会）修订发布了《证券公司投行业务质量评价办法》（以下简称《评价办法》），《评价方法》不仅促进了证券公司主动归位尽责，而且推动了业务向规范化、专业化的方向发展，从而提高了资本市场的整体效率与活力，并在维护投资者权益方面发挥了重要作用。

投行自律核查现状与挑战

随着资本市场的高度信息化，投行业务的精细化运作与严格监管已成为行业发展的必然趋势。然而，面对海量的工作底稿资料与日益复杂的文档构成，传统的审核机制正遭遇前所未有的挑战。

1.投行底稿数量的急剧膨胀与人工审查的局限性形成鲜明对比。目前，投行业务工作底稿的审核工作主要依靠人工进行。由于文档材料数量庞大、类型繁多，人工审核工作量极为繁重。以2023年为例，全年全行业共完成投行项目近7000个。协会在开展投行业务质量评价工作时，采用项目抽样形式进行审核，审核项目总数约1000个，审核文件总数超过2万份。人工审核模式不仅耗费大量人力与时间成本，更因无法对所有项目进行全面覆盖，而在客观上限制了投行业务自律管理的广泛触达与深入探究。人工审核的局限性在庞大的工作底稿面前显得尤为突出，凸显出传统手段应对大规模数据处理时的力不从心。

2.底稿质量的参差不齐与技术处理能力需求的相互交织。随着投行底稿电子化的推进，协会具备了依托底稿监管系统开展非现场自律检查的基础。电子化后的底稿内容涵盖企业方方面面，包括各类合同、政府批文、银行流水、货单、访谈纪要、资产证明等。然而，通过拍照、扫描等技术加工手段实现二次电子化的投行底稿文件，其质量、可读性远逊于初始电子文档。此外，投行底稿模板差异化显著，不同券商的项目之间区别很大，甚至同一家券商的不同项目间也存在差异。投行底稿文档质量不高、标准化程度低的特点，对技术处理手段、处理模式均提出了更为严峻的挑战。

3.底稿复杂的内在逻辑与关联勾稽对审查专业度和效能提出挑战。投行底稿文件涵盖了项目整个生命周期的详细记录。每一部分的内容都可能涉及大量的数据、图表、分析报告、法律意见书、往来函件等具体文件，形成了一个庞大且复杂的文档体系。然而，底稿中各项内容并非孤立存在，而是相互关联、层层递进的。这种逻辑上的紧密联系使得工作底稿如同一个庞大的知识网络，审核人员必须理清各部分之间的因果关系和逻辑脉络，才能准确把握项目的全貌。从能力要求来看，审查者不仅需要具备深厚的行业知识、丰富的财务知识，还要熟悉相关法律法规条款，才能把控合规风险，有效评判项目的合理性和创新性。这些特点均指向审查工作，不仅需要深厚的专业知识和丰富的实践经验，还需要严谨的逻辑思维、细致的观察力和高度的责任心。

智能处理赋能自律管理

为了应对工作底稿审查工作中面临的文件数据量大、内容质量较差的困难，本应用将传统语言图像处理算法、深度学习、大模型人工智能等多种技术综合运用，完成包括利益冲突审查、立项表决、质量控制流程、现场核查、质量控制报告问核、内核会议、内核会议意见回复等工作。通过算法层和解析层赋能，对外提供包括底稿智能审核、底稿搜索、高亮定位等核心功能。同时为提高审核结果的准确度，应对可能的技术风险，保障合规性，并为深度学习等提供学习反馈，还增加了人工复核修正的功能。

应用引入了前沿的智能审核算法作为前置环节，对现有审核流程进行深度优化与精准调整。智能审核流程如图1所示，通过大模型智慧能力注入，前置化的智能审核算法具备强大的实时分析能力，在提交审核的初期阶段即迅速生成精准的评估结果与建议，为后续人工审核提供强有力的支持。改良的大语言模型有效支撑信息抽取效果增强，在面对诸如关键指标异常等复杂情况时，智能算法能及时发出审核预警，通过出具详尽的诊断理由，实现审核阻断，使得整个审核进程显著加速。如此一来，不仅有效避免了无效工作与冗余环节，更极大地节省了宝贵的时间资源，使审核工作更加聚焦、高效，确保了决策的准确性。

探索投行自律核查的技术创新之路

结合投行底稿量大、类型多元、内在逻辑复杂等特性，协会创新性地将AI、大模型等前沿技术引入投行底稿核查中，通过交互式页面渲染和人机联动，实现自律管理服务能力增强和提质增效。聚焦到技术创新上，首先利用文档版面解析技术，提取各类非结构化文件中的文档特征。其次，借助文本分类技术，从海量底稿数据中精准定位与自律核查相关的底稿数据，并基于分类结果，使用信息抽取技术精准定位到底稿中涉及自律打分的具体内容和位置。同时，可以利用大模型的泛化能力，对自律核查要点进行直接审核，跳过信息抽取环节。核查结果通过用户界面呈现，使得审核人员能够更加高效地进行自律核查。

1.关键技术一：文档版面解析技术。从版面呈现来看，投行业务底稿包含多种文件类型，但从智能文档处理的视角来看，这些文件均可视为标题、段落、印章、表格、签名、页眉和页脚等基本文档元素的不同组合。因此，实施智能文档处理以辅助投行自律核查的首要步骤是对底稿文件进行精确的版面解析。

目前，版面解析技术已从基于规则的算法模型演进为以复杂深度学习网络为主、传统规则工程为辅的大型软件系统工程。在处理底稿文档时，必须平衡解析步骤的精确性和业务操作的实际性能需求。鉴于数据量巨大，尽管复杂的模型能提供更高的准确率，但可能导致处理时间过长。

本应用综合了深度学习和传统图像处理技术，旨在满足投行自律核查的具体需求。具体而言，针对核查过程中的关键要素，如签名和印章，运用了目标检测和图像分割等深度学习技术以提高识别精度。为了提升处理效率，对于非关键内容，采用了传统图像处理技术，例如线条检测、文本矫正和图像降噪，以及基于规则的正则表达式和基于位置信息的元素提取技术，以实现快速而有效的处理。

2.关键技术二：文档关键信息抽取技术。信息提取是底稿核查最关键的一环，而要点抽取则是核查工作专业价值的体现和灵魂。完成文档版面解析后，接下来的步骤就是提取与自律核查相关的要点信息。信息提取作为智能文档处理的核心环节，涉及基于规则算法、传统自然语言处理（NLP）以及深度学习等多种技术。这些技术均需依赖大量经过标注的训练数据以优化性能。基于规则的方法能够立即投入使用，但其效能受限于工程师根据历史数据制定的规则。相比之下，基于NLP和深度学习的提取技术则依赖于高质量的标注数据来提升模型表现。数据的优劣直接影响模型的准确性。

版面解析的成果为信息提取提供了基础，针对特定核查要点，可以筛选相应的版面类型作为输入，或结合版面类型、位置和上下文信息，采用多模态技术进行深度提取。对于复杂的表格数据，开发专门针对表格信息的提取模型，以适应其结构特征。

随着大模型算法的发展，基于大模型的信息提取技术在多种应用场景中显示出显著优势。大模型通过数据驱动学习，以更深入地理解底稿内容。其快速泛化能力允许在不必对每个字段进行单独训练的情况下，通过设计适当的提示词快速提取所需信息。尽管如此，由于大模型结果的不可解释性，完成提取后仍需对结果进行人工校验，确保信息的准确性和可信度。

3.关键技术三：大模型智能审核技术。除了经典的版面解析、信息抽取技术路线以外，本项目还探索直接利用大模型的泛化潜力结合检索增强生成（RAG）技术与提示词工程，以优化并简化自律核查流程。

检索增强生成技术与大模型的结合，从而克服大模型在处理知识密集型任务时的局限性，特别是对于需要最新或特定领域知识的情况。这种结合通过引入外部知识源的检索机制，增强了大模型的知识获取能力，从而生成更准确、丰富且贴近现实世界答案的文本。

提示词工程（Prompt Engineering）指的是设计和优化输入到大型语言模型的提示词，以引导模型生成特定、准确和有用的输出的过程。在这种情境下，提示词不仅仅是简单的问题或指令，而是精心构造的语句，能够激发模型以期望的方式进行响应。

通过对大模型进行审核场景的专门调优，并结合检索增强生成技术与提示词工程，能够有效解析工作底稿中众多非结构化数据，生成自律核查的相关结果。

投行底稿智能审阅系统应用探索

2023年至今，证券业协会着力提升投行自律管理领域的文档智能处理能力，紧密结合投行业务实际需求，融合文档版面解析、关键信息抽取、大模型智能审核等尖端技术，探索打造多模态文档智能审阅领域模型，成功构建了投行底稿智能审阅系统原型。如图2所示，系统设计遵循多层次架构原则，通过自动化和智能化技术全面提升投行业务文档审阅的效率与精准度，确保能满足大规模、高精度底稿处理需求。

系统通过对文档的智能分类、格式转换、版面解析、章节定位、信息元素识别提取等功能，有效解决了多种模态信息集于同一文档的抽取、识别和解析难题。此外，系统基于大语言模型，创新性地打造零样本信息抽取技术，高效并精准地从海量、非结构化、勾稽关系复杂的文档中提取关键信息，为审核人员提供规范、专业的审核要点，大幅度提升审核效率。在应用模型建设上，围绕投行底稿审阅场景，集底层资源、数据处理、模型服务、应用交互、基础管控等能力为一体，打造高效的端到端智能审核一站通，通过交互强化和人机联动，实现自律管理服务能力增强和提质增效。

投行底稿智能审阅系统的应用探索，不仅革新了证券行业自律管理的方式，同时为证券行业的数字化转型与可持续发展开创了崭新局面。主要成效包括以下几方面。

效率提升：通过自动化引入，大幅减少手工操作，有效提升文件处理效率。

效果增强：通过大语言模型能力植入，强化信息处理的准确性和一致性，驱动审核效果增强。

标准统一：通过应用探索，打造行业级审核标准和指导规范，为经营机构提升操作规范、强化履职提供指导。

自律监管加强：系统辅助证券业协会更有效地监督和管理行业的合规情况，有效提升行业的透明度和安全性。

技术创新与分享：协会鼓励智能审核技术的创新和应用，通过组织研讨会、培训和案例分享等活动，推广成功经验，激励行业内更多机构采纳智能化解决方案。

监管科技未来发展

随着证券业协会创新性地将大模型、智能文档处理等新技术赋能到投行自律核查业务，一方面为行业打造业技双向融合范式，通过投行项目质量评价场景聚焦，实现技术价值和业务价值的双向奔赴和转换。另一方面，通过新质生产力的注入、融合和创新，驱动服务实体经济、防范化解金融风险、深化金融改革新发展理念的贯彻、落地和践行。

如何进一步构建新技术在证券行业科技监管的诗和远方，核心关键词在于：治理格局、共建共享、可持续发展。

治理格局：由监管和自律组织牵头，制定投行业务文档撰写/审核的行业标准，实现文档类型要素、框架结构要素、关键信息要素的行业规范，为底稿撰写和审核注入智能化、标准化动能；其次，通过将部分智能化能力下沉至券商端，强化券商自检自查能力，提高业务合规性，形成券商侧和协会侧的联动治理模型，在投行执业质量评价体系的基础上强化双方职责、形成共振，共同引导业务合规开展。

共建共享：在行业监管的引领和指导下，自律组织发挥黏合效应，充分汇聚并整合行业资源，依托行业联盟驱动新质生产力的多元挖掘和价值创造，如合力打造基于领域级的垂直大模型，通过共建和成果共享实现新质生产力的普惠共享和螺旋式打磨，为行业监管注入活力。

可持续发展：自律组织在监管机构的指导下，统筹规划并推进行业公共服务和基础设施建设，通过创新服务模式和服务手段，降低整个行业的公共成本，营造公平、公正、透明的自律管理环境，推进行业高质量可持续发展。

未来，面对不断变化的金融市场和复杂激烈的竞争环境，监管机构、自律机构、证券经营机构将与各类科技公司一起，积极跟进智能业务和智能监管的发展趋势，加强技术创新和落地应用迎接金融业务的新变革。

（此文刊发于《金融电子化》2024年6月下半月刊）

技术应用 | 文档智能处理助力投行自律管理应用