实战 | 人工智能在非结构化数据场景中的科技赋能|人工智能|数据挖掘|算法|自然语言处理

文 / 交通银行软件开发中心秦唐臻

加快数字化发展，建设数字中国是《十四五规划纲要》中的重要纲领。人工智能也是科技创新板块纲要的重中之重。人工智能与数字化相互碰撞的火花，为金融科技催生出新的力量。交通银行为加快落实数字化转型的战略，借力AI人工智能平台，搭建了行内外专家投研交流平台，促进集团内部优质的投研资源的共享，用研究推动业务、创造价值——智慧投研，并通过构建标准化的AI服务模块和通用组件，为后续应用智能化改造，提供新的解决方案与参考。

非结构化数据背景及价值

IDC曾经做过预测，在2025年，全球的数据圈将达到175ZB，而在整个扩张中，增速最快的中国将增长至48.6ZB，以27.8%的占比领跑全球。在这些数据中，结构化数据仅占20%，剩余的80%都是非结构化和半结构化数据，并且这些数据还以60%的增速每年递增。

非结构化数据的价值主要体现在以下三方面。数据量大：在大部分银行中，非结构化数据已经占到信息总量的80%甚至更高。产生数据快：随着数字化转型的战略实施，可以预见的，将会有越来越多的非结构化数据产生。数据来源丰富：没有限定结构形式，表示灵活，蕴含了非常丰富的信息内容。

同时，非结构化数据也有许多无法规避的缺点。技术难度大：我行现有成熟的分析、挖掘技术体系，主要针对结构化数据，而非结构化数据却由于结构多变，无法充分利用。较高的存储要求：非结构化数据由于种类多样，因此他们的存储并不统一，并且由于增长速度快，数量巨大，对存储、治理都有着很高的要求。应用难度大：非结构化数据纷繁复杂、包罗万象，如何聚焦不同的业务场景进行挖掘，是其在应用层面的一大难点。

人工智能在非结构化数据中的应用背景

在传统投研平台中，管理员每日都会维护添加定量的研究报告与研究活动。而我们的用户群体中，包含不少的客户经理、投资经理这样的决策者。我们的研报具有高度的专业性、实时性，是这些用户决策的重要参考来源。

为了使报告便于管理和用户筛选，普遍做法是利用结构化数据信息，人工对这些报告和活动进行归类和总结，用户也通过这些归类来进行筛选。这种方法有效的前提是报告与活动的内容高度同质化，并能够精确归类。但是在实际应用中，我们发现报告内容往往是宏观且抽象的，叙事的中心内容总是不尽相同。如果只是强行对应到某些固定的分类中，效果往往是差强人意，不但造成了对管理员人工资源的进一步占用，也导致用户总是无法根据现有的筛选机制获取想要的信息内容。

针对此种问题，利用NLP（自然语言处理）手段构建关键词模型，能够更好地解决传统人工归类无法解决的痛点。自然语言处理是人工智能技术中重要的研究领域，该技术在多个行业被用以处理非结构化的文本数据。在金融业的应用包括：证券投资，自然语言处理可以运用热点挖掘、舆情分析和事件驱动分析等模型来做决策辅助。智慧风控，自然语言处理可以帮助构建用户画像，引入更多特征加入至监测模型。智能客服，自然语言处理是自动问答系统的关键技术。

智慧投研通过NLP算法，对研报、活动文本进行语义分析，并结合机器学习算法，完美的解决了上述的问题。一方面避免了大量人力参与归类的过程，节约了人力成本，解决了新类别研报活动产生后无法套用现有归类类别的困扰；另一方面用户也能通过NLP算法更为精准的搜寻锚准想要阅读的研报内容。

人工智能+非结构数据处理落地技术及方案

1.NLP算法文本提取。非结构化数据中，文本的占比比重无疑是最多的。传统的文本处理往往需要非常高昂的人工成本，而通过NLP算法的文本提取，便能很好地解决这个问题。提取主要分为两种：抽取式和生成式（见图1）。

图1 NLP算法文本提取的两种方式对比

抽取式：抽取式是一种根据算法，直接从原文中选择几条重要句子，并将它们重组成摘要的方法，特点是技术成熟，语法通顺，适用度高。

生成式：生成式主要通过计算机阅读原文后，在理解内容的基础上，用自己的话重新组织生成一段语言。特点是难度较大，需要深度学习，但生成的摘要更加通顺。

根据投研平台的应用特点，我选用抽取式作为关键词、句的提取技术。

本文对文本挖掘技术的梳理是基于数据挖掘的视角，数据挖掘的流程包括预处理、特征工程、算法建模、模型验证等；而爬虫采集抓取文本、自然语言处理NLP、搭建知识图谱等技术不在本文研究的范围内。

2.NPL文本预处理。对于银行来说，大量的客户和交易信息都是结构化存储的，因此非结构化的文本数据在分析时也需要与这些结构化数据关联在一起，结构化数据可以对文本打上各种标签（见图2）。

图2 NPL对文本进行标签化处理

中文文本和英文文本最大的区别就在于需要分词，分词技术分为基于词典、基于统计、基于理解三大类。基于理解的技术属于NLP，还处在研究阶段，应用较少。目前比较主流的是基于词典的技术，同时使用基于统计的技术为辅助（见图3）。

图3 NLP对文本的分词处理

应用赋能：智慧投研落地展示

针对智慧投研的场景，我们根据展示区和搜索区两个区域提出了基于人工智能的优化算法。

展示区往往会呈现研究报告的简介与基本信息，例如研报名称、作者名称、内容简介等，如果缺乏这些信息，将会使用户花费较多时间筛选。因此，用高效的语言、简洁的词组对研报进行归纳提炼，一种非常友好、高效的形式。本文提出关键词生成算法来获取研报的关键词、摘要，从而帮助用户进行快速筛选。

搜索区的优化是考虑到用户进行研报搜索时，如果仅根据输入的专业词汇进行严格搜索，很有可能导致研报数量少或者过滤掉具有相似信息的报告。因此本文提出同义词衍生算法应用于搜索阶段，将原有搜索词与其同义词同时搜索并进行优先级排序。这样既保证最初搜索词的内容可以被搜到，也能以此丰富搜索内容。

同义词衍生算法除了能够优化搜索结果以外，还能联结行内其他衍生信息，比如外部舆情、行内指标、宏观数据。对决策层用户来说，更多关联的数据、数据间更充分的关联关系、更多的决策参考视角，可以使他们做决策时规避更多的风险。

除此以外，通过NLP对非结构化数据的整合，关联至结构化数据，以标签的形式对研报内容、活动内容进行梳理与归类，实现程序化、模块化的管理与应用。

总结及展望

AI与非结构化数据究竟能碰撞出怎样的火花，是我们需要努力研究探索的。对银行非结构化数据而言，智慧投研的数据只是沧海一粟，我们应当在构建整合的同时，提升数据分析和应用的深度与广度。企业利用非结构化数据，对内可以优化业务流程节约人力成本，对外可以优化用户体验，洞察用户痛点。面对数字化转型的大潮，利用AI挖掘非结构化数据，无疑能提供巨大的动能并创造巨大的价值。

（栏目编辑：韩维蜜）