胡铭陈竟：大数据法律监督建模的定位、流程与方法 | 北方法学202401|北方法学|大数据|数据挖掘|法律|胡铭|陈竟

【作者】胡铭（浙江大学光华法学院教授、博士生导师，浙江大学数字法治实验室研究员，法学博士）；陈竟（浙江大学光华法学院博士研究生）

【来源】北大法宝法学期刊库《北方法学》2024年第1期（文末附本期期刊目录）。因篇幅较长，已略去原文注释。

内容提要：大数据分析与建模技术为数字检察改革提供了坚实的技术支撑，提高了检察工作的质效。然而，当前大数据法律监督建模存在理论与实践的双重困境。大数据法律监督建模是创建供检察人员履行法律监督职权所使用的具有重复利用、实时性、可视化操作平台的技术活动。业务理解、数据理解与特征提取、检察数据挖掘、评估与验证、部署与优化构成了大数据法律监督建模的基本流程，其中检察数据挖掘是大数据法律监督建模的关键技术环节。未来在厘清大数据法律监督建模概念的基础上，可从拓展检察数据的来源并加强质量监管，推进对大数据法律监督建模软件的引入、使用和研发工作，制定完善的建模操作指南，加强复合型检察人才队伍建设等四个方面优化。

关键词：大数据；法律监督；数据建模；数字检察；数字法学

目次一、大数据法律监督建模面临的困境二、大数据法律监督建模的基本定位三、大数据法律监督建模的流程与方法四、大数据法律监督建模的优化路径五、结语

数字经济时代下，互联网、物联网、移动智能终端等日益普及，用户产生的各类数据呈爆炸式增长，当今世界已经进入了所谓的“大数据时代”。在诸多行业与领域，大数据分析越来越成为推进行业发展与变革的一股极为重要的力量。2021年《中共中央关于加强新时代检察机关法律监督工作的意见》强调，“加强检察机关信息化、智能化建设，运用大数据、区块链等技术推进公安机关、检察机关、审判机关、司法行政机关等跨部门大数据协同办案。”此后，全国检察机关启动检察大数据战略，强调以大数据赋能法律监督，并取得明显成效。构建大数据法律监督模型是实现数字检察的重要载体和手段，科学的模型可以大大提高监督的效率与质量。“全国检察机关已经推出车辆保险理赔监督模型、破产领域虚假劳资债券监督模型、政务数据云监督等几百个产品”，可以说，无法律监督模型，则无大数据法律监督。然而，目前大数据法律监督建模主题并未引起法学界的重视，关于什么是大数据法律监督建模、如何建模等关键问题尚无科学合理的解释。本文立足于数字法学、大数据分析和数据挖掘技术，结合统计学相关理论，分析目前大数据法律监督建模实践面临的困境，并试图构建大数据法律监督建模的理论基础与分析框架。

一

大数据法律监督建模面临的困境

“数字检察的重点就是通过构建数字监督模型，开展大数据的碰撞、比对和分析，从而发现深藏其中的监督线索。”可见，大数据法律监督建模是数字检察工作的重中之重。为对大数据法律监督建模有更为全面的了解，笔者对Z省H市某区人民检察院进行了实地调研，获取了宝贵的第一手材料，对大数据法律监督模型的构建、大数据法律监督的成效及一线检察官所碰到的难题有了初步的认识。另外，通过对调研期间获得的某区人民检察院构建的7例大数据法律监督典型模型以及最高人民检察院公布的5例“大数据赋能未成年人检察监督典型案例”、5例“大数据赋能类案司法救助典型案例（第一批）”与7例“大数据赋能行政检察监督典型案例”等共24例大数据赋能法律监督案例进行深入研究，笔者认为目前大数据法律监督建模面临理论缺失与大数据技术缺位等两个较为突出的困境，现选取其中具有代表性的3例进行分析。

困境之一是建模理论缺失。虽然我们对大数据法律监督已经有不少研究，但对于大数据法律监督建模理论的研究却是十分缺乏的。这种缺失主要体现在两个方面：一是概念不清。大数据法律监督建模涉及诸多概念，最基本的问题如什么是大数据法律监督建模，学界与实务界尚没有明确的回答，这直接导致目前与大数据法律监督建模相关的诸多概念存在语焉不详、相互混淆的问题。以“数据碰撞”一词为例，该词在24个典型案例中反复出现，实务界人士也常以数据碰撞作为模型的特征进行介绍，但其具体含义并不明晰。在中国知网和谷歌学术分别以数据碰撞为主题、关键词、篇关摘进行搜索，可以发现，数据碰撞总是同中文“消除”“避免”“防”及外文“prevention”“avoidance”等字词出现，可知数据碰撞在其他学科往往是作为一个“问题”的身份出现，即需要尽力避免和防止出现数据碰撞。例如，计算机科学中对数据碰撞的定义为“Web网络数据传递，如果网络时间信息中其他介质访问层采用竞争方式共享信道，相同信道在传递数据的过程中会引起干扰”，数据碰撞在此指代的是数据之间的干扰或冲突，而大数据法律监督实践中所使用的数据碰撞一词却似乎是数据分析的一种方法，即将不同种类数据进行对比，以从中发现异常数据或相关性，二者含义可谓大相径庭。因此，有必要厘清大数据法律监督建模的基本概念，规范大数据法律监督建模相关用语。二是缺乏理论。概念的不清晰，实则反映出理论的贫乏。大数据法律监督建模实践已经数年有余，然而关于什么是大数据法律监督建模、其特征是什么、建模需要遵循哪些基本原则、大数据法律监督建模是如何进行的、涉及哪些关键技术等问题却尚无科学合理的解释。通过对24个典型案例的研究发现，几乎每一个案例的梗概介绍都用词十分模糊，几乎离不开“有必要进行大数据法律监督建模”“筛选”“关联”“数据碰撞”“数据比对”“综合分析”“数据分析”等词，但具体理论为何、如何操作等却含糊不清。

困境之二是建模的大数据技术缺位。目前对于法律监督中的数据分析已经有不少研究，但主要还是停留在小数据、小样本甚至是个案的分析。大数据法律监督建模，顾名思义，必然离不开大数据技术。大数据技术主要包括“数据采集，数据预处理（数据清理、数据集成、数据变换等），海量数据存储，数据分析及挖掘，数据的呈现与应用（数据可视化、数据安全与隐私等）”。从逻辑上而言，大数据法律监督建模自然离不开上述技术的支撑。一旦大数据技术缺位，将导致大数据法律监督名不副实，从而出现模型结构单一化、检察数据挖掘浅表化、模型空置化等问题。在实务中甚至出现不少法律监督模型所包含的数据量不足以称之为“大数据”的情况。例如，最高人民检察院公布的17个典型案例中，明确写明监督对象的数据量的有3个，其中2个案例数据量不足以称之为“大数据”；笔者调研的7个典型案例数据量情况亦同。案例一中的“关键数据为登记的140余辆校车”，案例二中的“关键数据为401件由交警队侦办并移送审查起诉的醉驾型危险驾驶案”以及案例三中的“6713人的学籍异常人员数据库”等，其数据量远远称不上为大数据。

大数据技术的缺位对检察数据的收集、存储、处理、分析与挖掘等各个方面造成了不同程度的影响。通过对24个法律监督模型的观察，我们可以发现，这些模型几乎都采用了相同的模型结构，即通过Excel表格或其他数据分析软件对不同的数据库进行联立，从中发现异常数据，模型结构趋于单一化。从检察数据挖掘的程度来看，24个案例所使用的数据皆为结构化数据，简单理解为以数值为主要形式组成的数据，几乎排除了大数据中占绝大多数的非结构化数据，或是通过人力的方式处理非结构化数据，而忽略机器学习的分析方法，对人力较为依赖，且由于缺乏对大数据分析技术的使用，导致只能挖掘检察数据中具有浅显相关性的数据，即检察数据挖掘浅表化。案例中数据分析的方法往往与关键词“数据碰撞”“筛查”“比对”“调查核实”等相关。模型结构的单一化和检察数据挖掘的浅表化实则反映了复合型人才的缺乏。笔者在Z省H市某区人民检察院调研期间，谈及建模技术相关问题，检察官直言不讳地指出，检察官能对Excel表进行基本的操作就已经算得上是比较高水平的人才，更遑论利用大数据技术、复杂软件进行建模。这也导致实践当中存在部分检察机关为应付上级考核或“赶时髦”构建法律监督模型，取得部分成效以后便将模型束之高阁的现象，造成模型的空置化。

二

大数据法律监督建模的基本定位

理论的最基本要素是概念。为准确理解大数据法律监督建模的定位，本文尝试将大数据法律监督建模分解为大数据、大数据法律监督以及建模三个层面，从基本概念入手，层层递进展开阐释。

大数据的概念最早起源于2008年9月《Nature》杂志上刊载的名为 Big Data 的专题，后在谷歌、雅虎、亚马逊等科技企业实践的基础上逐步完善和深化。根据维基百科的定义，大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。这种定义强调的是大数据在捕捉、管理和处理难度上区别于传统数据。笔者认为，大数据与传统数据的区别首先应体现在数量规模上，大数据不是以MB为计量单位的数据，而是GB、TB甚至是PB级别的数据集。其次体现在数据种类上，大数据的数据类型多样，既有数值、文本等常规意义上的数据，也有视频、图像、音频、地图等非常规数据。最后，大数据凭借云计算等方式，其增长速度和处理速度具有高速性。以上即大数据所具有的规模性（Volume）、多样性（Variety）和高速性（Velocity）的“3V”特性。前已述及，案例一、二、三中的数据从严格意义上而言，尚不能符合大数据的特性。

需要注意的是，对大数据理解的侧重点不同，可以导致大数据法律监督产生不同的含义，进而影响对大数据法律监督建模的理解。一方面，大数据可被理解为符合“3V”特性的数据集。在该层面，大数据仅视为一种包含法律监督线索的材料。此时，大数据法律监督被理解为利用大数据（线索）进行法律监督，即通过对大数据进行累加、比对、统计或其他方法，从而发现案件线索，实现法律监督的目的。简而言之，该层面的大数据法律监督只需要强调对检察数据的广泛收集和存储，至于以何种方式、方法、手段对大数据进行利用在所不问。对大数据的这种理解容易导致对数据的片面强调，而忽视对分析方法的利用。在这一理念的指导下，大数据法律监督建模缺乏大数据技术的介入，从而出现模型结构单一化、数据挖掘浅表化和模型空置化等现象便容易理解了。另一方面，大数据也可被理解为一种分析方法和技术。在该层面，大数据不仅仅是材料，更是分析方法本身。此时，大数据法律监督被理解为利用大数据（分析方法和技术）进行法律监督，即通过大数据分析方法和技术对检察大数据进行深度分析和研判，从而发现案件线索，实现法律监督的目的。该层面的大数据法律监督不仅强调大数据的材料属性，同时强调其技术属性。在这一理念的指导下，大数据法律监督建模既强调检察大数据的收集与存储，也强调利用大数据技术对大数据进行更有效的利用，包括大数据仓库技术、大数据挖掘技术、大数据分析技术等。因此，在大数据法律监督的语境下，对大数据的理解不应局限于材料意义上的大数据，而应注重作为分析方法的大数据的理解。除以上理解外，还有学者认为大数据可从方法论的意义上理解，如图灵奖获得者、著名数据库专家 Jim Gray 博士称大数据为“第四种科学研究范式”。

法律监督有广义和狭义之分。大数据法律监督建模中的法律监督采狭义说，意指“有关国家机关依照法定职权和程序对立法、执法和司法活动的合法性所进行的监察和督促”。据此，有学者从大数据法律监督的依托平台和目标着手，认为大数据法律监督指的是“一种以大数据及相关科技为支撑力，以多案监督为着力点，以促进国家、社会治理现代化大目标的高级法律监督”。该观点体现了法律监督在大数据时代的特点，但将大数据法律监督定性为一种“高级法律监督”，似乎有所偏颇。法律监督是“‘检察权’概念内涵中不可或缺的重要元素”，是“在‘检察权’概念下某些具体的检察职权”，而检察职权并无高级与普通之分。况且将大数据法律监督定义为“高级法律监督”有同语反复之嫌疑，即定义项不能直接或间接包含被定义项。检察机关是我国《宪法》规定的法律监督机关，依法行使检察权，大数据法律监督强调的是检察机关利用大数据分析技术、计算机科学等工具或平台履行职权，其本质是一种行使法律监督权的方式或手段。因此，对大数据法律监督的定义还应当从其本质、目的、方式上着手，力求最大限度地呈现大数据法律监督的实质内核。综上，本文认为大数据法律监督指的是，检察机关利用大数据分析与挖掘技术，对检察数据进行深度挖掘，并以计算机平台为依托，构建履行职权的模式化操作平台，以对行政、公益、刑事、民事等法律活动的运行情况进行的监察和督促。

建模是一种被广泛应用于数学、工学和其他自然科学的研究方法。由于建模的方法应用较为广泛，因此很难找到统一的定义。但简单地理解，建模就是根据研究对象的特点，创建一个简化版的研究对象以供实验，从而根据实验结果进行评估、调整，从而达到描述、解释、预测研究对象的目的。例如，在飞机制造业，工程师通过制造飞机模型放进具备亚音速、超音速的风洞中进行反复模拟实验，再根据从风洞中得到的宝贵参数调整飞机模型，最终设计出一款飞行性能、安全性能优异的飞机。人类很早就开始利用建模的方法认识世界、解释世界。亚里士多德与托勒密提出了地心说的宇宙模型，哥白尼于1514年又提出了日心说的宇宙模型；1687年牛顿建立了著名的数学模型——万有引力定律，为经典力学奠定基础。经济学是较早运用建模方法的社会学科。在经济学中，建模通常指代的是对经济的数学建模，“使用数学术语表达经济理论需要详细的描述，这个过程被称为数学建模。模型是表达某一经济理论各种数学关系的一个集合”。建模蕴含了自然科学中实验的方法，具有显著的科学性，而实验的方法正是法学研究长期忽视的一种方法。“相较传统的实证法学研究方法，实验方法在挖掘数据规律、确定变量之间因果关系等方面具有可复制性、可验证性等优势。”综上，建模往往与数学、实验等关键词紧密相关。建模的方法不仅可应用于大数据法律监督领域，也可探索将其应用于犯罪学、刑法学、民法学等各个部门法的研究工作当中去。

在对大数据、法律监督、大数据法律监督、建模等相关概念进行梳理以后，大数据法律监督建模的概念和定位逐渐清晰。首先，建模都有其明确的监督对象和监督目的。如案例一督促履行校车安全监管职责大数据监督模型，以负有校车运行安全职责相关的行政审批部门、教育行政部门和公安交警部门为监督对象，其监督目的为明确校车安全问题所在，促推监管治理。其次，建模的前提是建立相应的检察数据库。如案例三控辍保学监督案通过公安数据、教育机关数据建立6713人的学籍异常人员数据库。再次，相关类案的共同特征是模型运行的基本规则。所谓“符合相关特征作为筛选要素”，即是对模型运行规则的描述。从次，建模客观上推动检察机关将被动监督化为主动监督。以往检察机关行使法律监督职权往往被动等待案件上门，但模型的建立可以使检察人员主动发现案件相关线索，对法律监督对象实现实时监督。如案例三控辍保学监督模型，检察人员通过对学籍异常随迁子女数据进行排查，主动筛查出辍学失管人员22人。最后，建模不仅实现了对类案的监督，同时推动了社会治理。检察机关通过模型发现诸多案件线索以后，根据制度性漏洞制发检察建议，便可实现以类案监督推动社会治理的良好效果。概言之，大数据法律监督建模指的是检察机关出于特定的监督目的，基于法律规定和大数据技术，借助计算机平台，深度挖掘检察大数据，创建供检察人员履行法律监督职权所使用的，具有重复利用、实时性、可视化操作平台的技术活动。其本质是一种技术活动，既不是法律监督本身，也不是一种新的法律监督方式，而是为新的法律监督方式即大数据法律监督创造条件的一种技术活动。

三

大数据法律监督建模的流程与方法

“大数据法律监督依赖于监督模型背后算法对数据分析、挖掘加工、提炼的有效程度”，模型的质量与监督的广度、深度直接相关。因此，对数字检察改革的研究无法回避对大数据法律监督建模的流程与方法的研究。大数据法律监督建模的实质是运用大数据分析技术创建运用于法律监督的模型。传统大数据分析分为六个基本步骤：业务理解、数据理解、数据准备、建模、评估、部署。具体到大数据法律监督建模，其基本步骤可分解为业务理解、数据理解与特征提取、检察数据挖掘、评估与验证、部署与优化等五个阶段，与上述大数据分析的六个基本步骤相比，本质相同但具体表现形式有所差异。这五个阶段为大数据法律监督建模的基本过程，是为“大建模”，其中在大量的检察数据中探索数据与数据之间的相关性、因果性的方法称为检察数据挖掘。所谓数据挖掘，指的是“通过仔细分析大量数据来揭示有意义的新的关系、趋势和模式的过程”，有学者将其总结为“数据挖掘=统计学+大数据+机器学习与提升”。检察数据挖掘就是综合运用数学统计、机器学习和数据挖掘的技术和方法，对检察大数据进行处理和分析，通过数据建模发现数据与数据之间的相关性、因果性等逻辑关系，其实质是建立检察数据之间的模型关系，是为“小建模”。大数据法律监督建模包含了从业务理解到模型部署的全阶段，而检察数据挖掘针对的是数据准备阶段结束以后，对检察数据进行统计分析、选择变量、调整参数、选择算法、模型测试、迭代优化等数据挖掘工作。检察数据挖掘是大数据法律监督建模的核心环节，大数据法律监督模型的成功创建取决于小建模的科学性、合理性。

（一）大数据法律监督建模的基本流程

1. 业务理解

大数据法律监督建模的目的是提高监督的效率与质量，而每一款模型所针对的都是特定的监督对象，有着特定的监督目的。为达到特定的监督目标对特定监督对象进行法律监督即为大数据法律监督的业务目标。为了确定具体的业务目标和需求，首先要确定业务问题，包括分析业务背景和场景，明确要解决的法律问题是什么，如何定义、量化和评估。其次要确定业务范围，包括分析业务边界和影响因素，明确要涉及的法律领域、案件类型、监督对象等。最后要确定业务指标，包括分析业务目标和价值，明确要达成的法律效果、监督标准、评价指标等。在业务理解阶段，要特别强调一线检察官的作用。一线检察官通过在办理个案过程中所总结出的“类案”的共同特征，更能提炼出模型所要突出的数据要素特征。例如，虚假诉讼规则的提炼就是依靠检察官从民间借贷纠纷个案中，总结发现了涉“套路贷”虚假诉讼案件往往具备同一原告、密集起诉、公告送达、缺席判决等数据要素特征。建模人员就可以根据这些要素特征，对搜集到的司法裁判文书进行分类，从而找出风险较高的案件。可以说，对业务的理解准确与否，直接关系到大数据法律监督模型的质量。

2. 数据理解与特征提取

数据理解和特征提取是大数据法律监督建模的首要任务。“数据理解阶段开始于数据收集，通过一些活动的处理，目的是使操作者逐步熟悉数据，首次发现数据的内部属性，或是通过观察部分数据的子集，假设数据之间的相关性。”建模者应根据建模的监督对象、内容、方式、预期效果等，确定数据的来源、类型、范围、格式等，并存储到合适的位置。数据包括检察机关内部数据和外部数据，如司法裁判文书、行政处罚书、医保大数据、司法网拍大数据、监狱罪犯信息、法院被执行人情况信息、社区矫正信息、限高失信人员信息、吸毒人员信息、流浪汉信息、法院执行案件信息等，要尽量保证数据的完整性和多样性。在进行大数据法律监督建模之前，建模者要充分理解检察数据。建模者在对数据进行充分理解以后，需建立不同主题的检察数据库或检察数据集以保证后续检察数据挖掘的工作效率。

特征是大数据分析的原材料，对最终模型有着决定性的影响。所谓特征提取，可以将其理解为烹饪中的食材准备过程，每种食材代表数据中的一种特征，而一道复杂的菜肴需要不同食材，这些食材（特征）可能是蔬菜类、肉类、调味品，分别代表数据集中的不同属性。而特征提取就是根据菜谱的需求将食材切割成相同大小的块（归一化）、将调料按比例加入（标准化）、选择最新鲜的食材（筛选）等。检察数据种类多样、格式不一、来源广泛。考虑到检察数据不仅包含结构化数据，还包含了规模庞大的非结构化数据，为便于后续对数据的挖掘与分析，必须将数据处理为后期可以反复使用的形式，不同的数据对应不同的特征提取方式。此后，建模者可以借助切片、切块、钻取、旋转等手段将转换后的数据进行特征值提取，以形成新的特征集合来反映原始数据，揭示数据间的潜在关系。

此外，目前亟须对检察数据进行科学的分类，因为数据的不同所选择的模型也可能大有不同。如计量经济学将经济数据分类为横截面数据、时间序列数据、混合横截面数据和面板数据，每种数据类型都有其相应的回归分析方法；教育学中将数据分为基础数据、状态数据、资源数据和行为数据，数据类型的不同影响数据分析方法和模型的选择。因此，法学界应重视法学数据领域的研究，不仅仅是对检察数据的重视。有学者提出，“数据法学”是第四种法学知识新形态，应大力研究数据法学以拓展法学研究的边界。目前，关于检察数据的研究还处于起步阶段。

3. 检察数据挖掘

如前文所述，检察数据挖掘即为小建模，是大数据法律监督建模的核心环节。检察数据挖掘就是要从大量的检察数据中提取“隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识”，从而实现“分类（classification）、估值（estimation）、预言（prediction）、相关性分组或关联规则（affinity grouping or association rules）、聚集（clustering）、描述和可视化（description and visualization）”等任务。检察数据挖掘的首要任务是选择合适的模型建模。不同的模型针对不同的数据、任务，最终创建的模型在效果方面也会产生差异。根据数据的组织形式，检察数据可分为结构化数据、半结构化数据以及非结构化数据。所谓“结构化数据”指的是数据本身包含了定义明确的部分，并按一定的结构组织排列，例如企业纳税表，所有字段、数字都有明确的含义。“非结构化数据”则“无法用固定的格式组织和定义，也无法用SQL等类似的检索方法查找，如以txt格式保存的图书、论文”。“半结构化数据”为既包含结构化数据又包含非结构化数据的数据。针对结构化数据，建模者可选择关联分析模型（回归分析、关联规则分析、相关分析），分类分析模型（支持向量机、神经网络、逻辑回归、决策树与回归树、K近邻、随机森林与朴素贝叶斯）和聚类分析模型。针对半结构化数据，建模者可选择结构分析模型（最短路径、链接排名、结构计数、结构聚类、社团发现）。针对非结构化数据，建模者可选择文本分析模型。当然，某类数据所使用的分析模型并不是完全固定的，如神经网络既可以应用于结构化数据的分析，也可用于非结构化数据的分析。此外，选择模型的步骤可能会重复进行，以便找出最优选。

4. 评估与验证

通过检察数据挖掘建立一个高质量的模型以后，需要评估和验证模型的有效性和适用性，确保模型能够实现预定目标。在检察数据挖掘阶段，将目标数据按一定比例分为测试数据集、验证数据集和训练数据集。顾名思义，训练数据集指的是用来训练模型的数据集，而测试数据集和验证数据集则是用来评估和验证模型的数据集合。根据验证数据集验证模型的情况调整原始模型参数，将其调整到最佳数值，使模型的效果尽可能达到最优状态。对模型进行评估，就是将测试数据集导入训练好的模型中，观察模型的拟合程度及输出结果，根据结果的准确率、召回率、F1值、判定系数、查准率等来评估模型的效果和可靠性。

5. 部署与优化

创建模型的最后一步是部署模型，在业务实践中完成既定的法律监督目标，是建模的最终任务。在一定程度上，模型的创建永不会结束。一方面，模型要随着实际应用情况不断地进行优化；另一方面，为保证模型监督的时效性，模型中的数据也要实时更新，才能保证模型具有持久的生命力。这就要求检察机关相关部门对检察数据存储平台、检察数据仓库具备良好的管理能力。借助模型中台将检察数据中的类案线索以可视化的形式展现，以辅助检察机关进行决策。大数据法律监督模型的成功可以延伸检察机关的“职能触角”，强化检察权行使的专业性。

（二）大数据法律监督建模的关键技术

大数据法律监督建模是一项较为繁杂的工程，受制于大数据的属性，一般的单位、人员并不具备对大数据进行收集、存储、处理与分析的条件。即使是在具备这种条件的单位，大数据法律监督建模技术运用得也尚不成熟。目前大数据法律监督更多是使用传统统计分析的方法，对检察数据进行“简单累加、比对”，而对检察数据的“关联挖掘力度不能完全满足检察工作的实际需要，非结构化的数据处理专门平台和工具仍待开发建设，数据应用效率和水平仍处于比较低的水平”。谈及技术，向来是法学界人士的短板，毕竟法学学科作为一门社会科学，在国内的培养教育体系下，鲜有懂技术的法学人才，况且法学生生源以文科生为主，其技术背景本身就较为弱势。但不懂技术并不是排斥技术的理由，我们正处于大数据时代，面对时代的需求变化，已有学者呼吁变革法学教育，要“面向数智未来”培养技术与法学兼得的复合型人才。

大数据法律监督建模从数据收集到模型建立，涉及的技术范围广、种类多，如数据库技术、数据清洗、降维、正则化、交叉验证、数据挖掘技术等，其中检察数据挖掘技术是最为关键、最具价值的部分。前已述及，检察数据挖掘是为小建模，是大数据法律监督建模的核心环节。因此，对其技术的分析与掌握是进行大数据法律监督建模的关键要素。本节将结合相关案例对小建模的关键技术进行阐述。常见的数据挖掘方法包括关联分析、分类分析、聚类分析、文本分析、时序分析以及其他深度学习算法等。

1. 关联分析

“关联分析又称关联挖掘，即在各种数据中查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构，是大数据挖掘的主要任务之一。”关联分析就是找出数据中的共同出现模式，通常表现为“如果某A出现，那么某B也会出现”的形式。例如在著名的购物篮分析模型中，如果顾客购买了面包，那么他们也有很大概率会购买牛奶，商家通过该规律制定促销策略。关联分析是大数据法律监督建模最常使用的分析方法，其操作简单，易于理解，准确性高。例如，“租赁关系的真伪”与“租金支付流水、房屋水电费支出、场所轨迹”等信息之间存在极强的关联关系，大数据法律监督可以利用关联分析技术建立虚假租赁关系法律监督模型。

2. 分类分析

分类分析可以通过模型建立自变量和因变量之间的映射关系，将检察数据转化为二分类、三分类或多分类问题，从而“为每个类别做出准确的描述或建立分析模型或挖掘出分类规则”，使复杂问题简单化。例如，在一个包含猫、狗、鸟等动物的数据库中，分类分析模型可以根据体重、大小、颜色等特征学习这些特征与动物之间的关系，当数据库中输入新的动物时，它能够快速准确地判断该动物是狗、猫还是鸟。在分类分析指导思想的基础上，发展出了各式各样的分类方法，如支持向量机、神经网络、逻辑回归、决策树与回归树、随机森林、K近邻与朴素贝叶斯等。在大数据法律监督的场景中，建模者可借助分类算法对社区矫正人员所犯罪行的类型及违反社区矫正监督管理规定的概率进行有效的分类、预测，以支撑检察机关进行定点预防和制定相关预警方案。

3. 聚类分析

“聚类分析的目的是寻找数据集中的‘自然分组’，即所谓的‘簇’”。“簇是指相似元素的集合，聚类分析就是一个在数据集中寻找相似元素集合的无监督学习”，使簇内差异性最小，簇间差异性最大。聚类分析有着广泛的应用。在保险行业，聚类分析可以根据不动产的类型、价值、地理位置来确定一个城市的房产分组；在电子商务领域，聚类分析可以发现具有相似浏览行为的客户，并分析客户的共同特征，从而帮助电子商务企业更了解自己的客户，从而向客户提供个性化的服务；在医疗领域，聚类分析常用于患者群体和医疗数据的聚类，以此找出同类患者特征或同一疾病特征。聚类分析在大数据法律监督中也具有较大的运用价值，例如，建模者可以尝试对污染型企业信息、排放污染物类型、排放标准、卫星图等数据进行聚类分析，以对河流湖泊的污染情况进行风险提示。常用的聚类方法包括K均值聚类、图论聚类、最优分割法、模糊聚类等。

4. 文本分析

文本分析，顾名思义，是对文本进行特征提取和分析的技术。文本作为一种典型的非结构化数据具有明显的高维特征。例如，“假设一个文件包含10000个汉字，每个汉字从500个最常用的中文字库中提取，则完全表示这个文件的维度将高达104×500”，况且“中文文本数据的定量分析难度高于英文文本数据。例如，与能够自动分词、断句的英文文本数据相比，中文文本数据的分词、断句的位置不同可能产生截然不同的含义”。因此，借助传统的分析方法对文本数据进行分析需要投入大量的人力物力，成本颇大。而检察数据中恰恰有大量的数据是文本数据，如司法裁判文书、行政处罚书、法律条文、司法解释、部门规章、新闻报道、政府工作报告、社交媒体的各种评论等，其规模十分庞大。因此，说文本分析是大数据法律监督建模最具潜力的技术之一也不为过。常用的传统文本分析的方法有分词、词频统计等。随着人工智能技术的发展，人类对文本等非结构化数据的处理能力将进一步提升，如“类ChatGPT模型”凭借其出色的数据分析与处理能力、专业素养、自然语言生成及理解能力，将为我国大数据法律监督实践带来诸多机遇。

5. 时序分析

时间序列数据是指按时间的先后顺序排列的某一现象的一个真实、有限的数据集合，如产量、收入序列、GDP等。时序分析通常以相似性进行度量，比较分析数据与对照序列之间的结构、趋势和距离的相似性。在大数据法律监督领域，一些数据呈现显著的时间序列趋势，假设酒驾的案发时间多出现在一天中的晚上，一周中的周末，一个季度或一年中的节假日，那么建模者可以使用时间序列描绘出酒驾的案发件数与时间之间的关系，根据模型的结果预测酒驾案发高峰时间段并积极做好相关普法、预警、处置等工作。时间序列的常用方法包括相似性度量、自回归时间序列模型等。

6. 其他深度学习算法

前文所述方法在进行数据分析之前，大多要进行数据预处理，再将预处理过后的数据进行分析。而“深度学习善于从原始输入数据中挖掘越来越抽象的特征表示，而这些表示具有良好的泛化能力。它克服了过去人工智能中被认为难以解决的一些问题，且随着训练数据集数量的显著增长以及芯片处理能力的剧增，它在目标检测和计算机视觉、自然语言处理、语音识别和语义分析等领域成效卓然”。深度学习作为一种新兴的、潜力巨大的机器学习算法，可以运用无监督或半监督的特征学习和分层特征提取的高效算法来取代手工的特征提取，极大地提高数据分析的效率。前文提到的类ChatGPT模型就是深度学习技术发展的最新成果。检察数据来源广、种类杂、规模大，利用深度学习技术发展而来的多模态大模型将有望为检察数据挖掘带来巨大的机遇。可以预见到，未来具备较高人工智能程度的深度学习算法，将凭借其高度的智能性、高效性、通用性，有可能取代或部分取代其他分析技术，从而成为大数据法律监督建模的主要分析技术。深度学习的常用方法包括循环神经网络、递归神经网络和卷积神经网络。

四

大数据法律监督建模的优化路径

大数据法律监督建模是实现数字检察战略的重要一环，监督模型的科学性、准确性直接影响到法律监督的质效。为了使大数据法律监督更好地服务于数字检察战略，有必要优化大数据法律监督建模，改变粗放式的建模现状，使建模走向精细化、规范化、科学化。如果将大数据法律监督建模比作一个产品，为提升该产品的品质，可以从四个方面着手，即制作产品的“原材料”——检察数据、制作产品的“工具”——大数据操作软件、制作产品的“说明书”——建模指南与操作手册以及制作产品的“工程师”——建模人才。本文着重提出以下四个方面的优化路径，为大数据法律监督建模的完善提供参考。

第一，拓展“原材料”的来源与加强质量监管。大数据的规模和质量直接影响建模的质量和结果的可靠性。为了优化大数据法律监督建模，首先要拓展检察大数据的来源，通过“内生”与“外引”开展检察大数据的归集，加强跨部门之间的数据共享，以获得相当规模的可供挖掘的检察数据，这不仅可以提供更全面的数据视角，还可以增加跨领域的数据链接和分析，从而提升建模的深度和准确性。目前检察大数据的质量不高，为了确保数据的质量，应建立有效的数据质量监管和评测体系，包括数据清洗、整合、去重、验证和标准化等环节。监管部门应出台相应的规范和标准，引导数据提供方遵循一定的规则，确保数据的准确性、完整性和一致性，同时规范检察机关对数据的使用，以保障数据安全和防止过度收集公民个人信息。相关规范和标准可以在《网络安全法》《数据安全法》《个人信息保护法》等法律法规中得到体现。

第二，加强对“工具”的引入、使用和研发。大数据法律监督建模具有较高的技术门槛，对大数据的收集、存储、分析与处理无不建立在强大的软硬件设施基础之上，而大数据软件则是大数据法律监督建模的关键性基础设施。前文指出，当前我国大数据法律监督面临大数据技术缺位的困境，直接体现在大数据软件在建模中的缺位。因此，为了充分发挥大数据技术在法律监督建模中的作用，应当引入并使用现有的开源大数据软件。在此基础之上，还可以借鉴已有的大数据开源软件和技术，研发和建立更具针对性的高质量的法律监督建模软件。

前文已述，大数据法律监督建模的基本流程为业务理解、数据理解与特征提取、检察数据挖掘、评估与验证、部署与优化等五个阶段，这五个阶段包含了对大数据的收集、存储及处理的全过程。根据大数据软件的主要功能和用途，以建模流程为顺序，目前可供引入和借鉴的开源大数据软件可以分为以下几类：一是供大数据存储和管理类的工具和平台。例如，Hadoop HDFS 分布式存储系统（适用于存储非结构化数据、半结构化数据和结构化数据），Apache HBase 可伸缩的列式存储系统，Amazon S3 云存储平台等。建模者可以根据检察数据的格式、种类、规模、读写需求以及部署环境选择不同的开源软件进行使用或研发。二是供大数据处理和分析类的软件和平台，如MapReduce（编程模型和数据处理框架）、Hive（数据仓库查询和分析）、Pig（数据清洗、转换和准备）、Apache Spark（通用分布式数据处理框架）等。三是供在大数据集上执行搜索、查询和分析操作的典型工具，如用于全文搜索和实时数据分析的工具Elasticsearch、Apache Solr，查询和数据分析的工具 Presto 等。四是供处理实时数据流、事件处理和流式分析的软件和技术，如 Apache Kafka 等。五是供机器学习和数据挖掘类的工具，如 TensorFlow（支持深度学习、卷积神经网络、递归神经网络和循环神经网络）、Scikit-learn（适用于数据预处理和特征工程、监督学习和无监督学习）、Apache Mahout（支持分类分析、聚类分析、推荐系统和降维）、LightGBM（适用于分类、回归和排名）等。六是供数据可视化和报表类的软件和平台，如 Tab-leau、Power BI 等，适用于创建商业报表和仪表板，Plotly 等则更适合需要高度定制化、可视化的项目，根据项目的复杂性和目标受众，建模者可以选择适当的工具来呈现相应的数据。大数据法律监督人员可以根据以上软件和平台的特性和用途，在其基础上开发出更具针对性的供法律监督使用的大数据软件，这种高度自定义的大数据软件可以根据法律监督建模的具体要求进行定制和优化，以提高法律监督的效率和准确性。

鉴于研发大数据软件的复杂性和成本以及防止技术产品无节制地开发与应用，可以考虑探索由最高人民检察院或省级检察院牵头，成立由计算机科学、大数据分析、法学等领域的专家组建的研发团队，开发具有针对性的法律监督大数据软件，研发成功后推向全国，让大数据技术真正助力数字检察战略。

第三，制定完善的“说明书”。制定完善的操作指南和手册是优化大数据法律监督建模的一个重要途径。考虑到大数据技术的门槛及建模的复杂性，建模指南和手册可以帮助检察机关内部的工作人员更有效地进行大数据法律监督建模，并确保数据处理和模型构建的标准化、规范化和模式化。建模指南的内容应当包含解释数据的种类、范围和格式，阐明建模操作的具体方法、流程和注意事项。其中，各阶段大数据软件的使用方法和相关经验应当得到相当程度的体现。具体而言，指南应包含以下内容：一是数据收集，详细描述数据来源和采集方法，确定数据的格式和结构，包括数据字段和类型。二是数据存储，指定不同类别的数据存储位置和方法，例如使用数据湖、数据仓库或云存储，并确保数据备份和恢复计划，以防数据丢失。三是数据清洗和预处理，定义数据清洗的标准和过程，包括处理缺失值、异常值和重复数据的操作方法，说明数据预处理步骤，如标准化、特征提取等。四是模型选择，介绍不同类型的建模算法和模型选择的考虑因素，提供模型选择的决策流程和指导。五是模型评估和优化，详细说明如何评估模型性能，包括使用的评估指标，描述模型优化的方法，如超参数调整。六是模型部署和监控，解释如何将模型部署到实际工作流程中，提供模型监控的策略，以检测模型性能下降或漂移。七是维护和更新，详细说明模型的维护和更新策略，以确保模型保持最新和高效，提供持续监控数据质量和模型性能的方法。除此之外，指南也可提供数据安全和隐私相关规范，强调数据安全和隐私的重要性，阐明数据访问权限和数据共享的政策。

第四，加强对“工程师”的技术培训。检察人才队伍建设“是进行数字检察改革的基础支撑”。加强对法律监督建模人员的技能培训是优化大数据法律监督建模的最直接的方法。在大数据法律监督建模中，建模者的技术能力和专业素养至关重要。对于一线检察官，培训他们掌握大数据技术，不仅可以提高他们的数据分析和模型理解能力，还能够增强他们在法律监督工作中的大数据思维。因此，培训计划应涵盖从基本的数据处理和统计方法到高级的机器学习和数据挖掘技术等多个层次，以满足不同级别和领域的需求，尤其要关注对大数据软件操作方法的技能培训，结合大数据操作指南，有力提升建模人员的建模能力。培训方法可以包括在线教育平台、专业讲座、研讨会和实践项目等多种形式，在资金允许的情况下还可以邀请相关技术团队进行线下指导等。此外，也可以出台相关激励措施或举办“建模大赛”，鼓励一线检察官参与建模，在实践中提高建模技能。这些措施可以帮助检察人员逐渐提高其大数据建模能力，并更好地应对复杂的法律监督挑战。

五

结语

在数字时代，越来越多学科积极拥抱大数据，综合运用数学、统计学与计算机科学促使本学科更加规范化、精准化、科学化。法学研究不能固步自封，应当适时吸收先进的研究方法，推动法学融入时代发展。数字检察实践是法学实务界迈向数字时代的有益探索。本文从大数据法律监督建模面临的困境入手，对大数据法律监督建模的概念及分析框架进行了浅述，探讨了大数据法律监督建模的基本流程和方法，并提出了大数据法律监督建模的优化路径。数字时代的司法实践已经明显走在了法学理论的前面。本文仅为初步探索，还存在许多不足之处，如对大数据法律监督建模的概念界定可能有所争议，对大数据法律监督建模的分析方法研究还不充分，对大数据法律监督建模的风险和应对策略缺乏实证检验等。希望本文能够为大数据法律监督建模的理论和实践提供些许参考和启示，也期待学界和实务界同仁对大数据法律监督建模进行更深入的研究和探讨。

-向上滑动，查看完整目录-

《北方法学》2024年第1期目录

【数字时代背景下的诉讼法学】

1.大数据法律监督建模的定位、流程与方法

胡铭、陈竟

2.数字时代背景下刑事取证制度的困境与回应

冯俊伟

3.数字时代下协同主义诉讼模式的建构

赵青航

4.韧性与规训：刑事司法算法决策的演进逻辑

郝龙飞

【企业合规专题研究】

5.《监察法》视角下企业监察“全覆盖”及反腐合规模式

张勇

6.企业领导人犯罪的义务违反类型化与合规激励规范化

史蔚

【部门法专论】

7.民法典视域下的违约利润剥夺责任

——以《合同编通则解释》第62条为中心

冉克平、田格

8.论我国司法营商环境评价指标体系的建构

——以B-READY范式为参照

孔经纬、王建文

9.行政行为瑕疵的指正

梁君瑜

10.市场交易法律控制的模式选择

——基于行政监管与司法调整的关系展开

万江

《北方法学》杂志是经国家新闻出版总署批准，面向国内外公开出版发行的专业法学学术期刊，双月刊，逢单月15日出版。《北方法学》由黑龙江大学主管主办，禀持开放办刊之理念，邀请国内外著名法学专家及资深教授组成编委会，打造国内一流法学期刊。国家新闻出版总署批复《北方法学》的办刊宗旨为：“繁荣法学研究，服务法制建设，加强学术交流，培养法律人才”。《北方法学》杂志目前设置的主要栏目有：理论法前沿、部门法专论、专题研究、外国法研究、中外法史研究、实践论坛、名家讲坛、博士生论坛、学术综述、译评文丛、学术问题争鸣、比较法论坛等。

法宝新AI·智能写作

无论是工作汇报，产品介绍，还是法律研究报告、市场宣传文案，法宝智能写作系统都能为您提供高质量写作支持，满足法律工作者日常学习工作中各类领域的写作需求，提供源源不断的创意与灵感，全面助力您的文案写作。您可以在平台上选择不同的写作模型，输入关键词和要点，即可自动生成文档大纲与内容。平台内嵌法宝V6数据库，让您的内容创作有据可依。与此同时，智能写作平台还支持实时对生成文档进行修改和优化，确保文章撰写的准确性。

—— 系统亮点 ——

“一键生成文章大纲”——输入关键词和内容要求，即可自动生成文章大纲，为您提供创作起点和清晰明了的写作思路。

“智能生成文章内容”——GPT模型结合法宝数据库快速生成逻辑自洽、内容丰富的文章。

“法宝V6数据库支持”——查阅生成结果的相关法律法规、学术期刊等信息。可准确理解法律术语，帮助生成符合要求的法律文件；能够自动匹配对应法律法规，实现法理逻辑处理自动化，增强文章权威性与可信度。法宝智能写作能及时跟踪法律法规的最新变化，避免使用已失效或废止的法律条文作为参考。

责任编辑 | 郭晴晴

审核人员 | 张文硕宋思婕

本文声明 | 本文章仅限学习交流使用，如遇侵权，我们会及时删除。本文章不代表北大法律信息网（北大法宝）和北京北大英华科技有限公司的法律意见或对相关法规/案件/事件等的解读。