欢迎您登陆邹城市人民法院门户网站2019年1月1日 星期一
您当前所在位置:首页 > 审判业务 > 业务探讨
【前沿问题】如何基于裁判文书网进行大数据法律研究?(二)
来源:   发布时间: 2020年06月23日

二、剖析:基于裁判文书网的大数据研究之问题及其成因首先说明,以大数据为主题的研究之外延不限于文中实际运用了大数据的研究,也有关注法律大数据所面临的伦理规范等问题、就开展大数据法律研究的方法论提出启发性见解的研究。

  本文所关注的大数据法律研究是指直接运用大数据来进行现象描述或理论阐释的学术研究。近年来,国内已出现了不少直接利用裁判文书网等平台的大数据或大量数据开展法学研究的探索,其展开方式如下:研究者首先借助计算机软件从裁判文书网批量下载数据,对数据进行清洗后,根据研究需要挖掘裁判文书中的有价值信息,对其进行相应的数据分析。但现有研究存在以下不足。

  当前大数据研究的技术手段仍停留在较为初级的阶段。首先,现有的研究仍未完成对裁判文书充分的文本识别与信息挖掘。已公开的裁判文书具有海量性、丰富细致性、不反应性等多种有利于研究的特征,但如何将裁判文书转化为研究所需的数据是研究者首先面临的问题。当下最常见的大数据研究在裁判文书中所收集和挖掘的数据多是一些浅层数据、显性数据,比如当事人有无律师、文化程度、籍贯、年龄、被采取的强制措施等处在裁判文书特定位置、易于被抓取的数据,未涉及对裁判文书的主文分析。对上述要素的提取可以通过直接的关键词识别来实现,再对提取后得到的数据进行研究主题下的个性化分析。一个典型的例子是笔者对四川省2015–2016年一审刑事辩护率所做的大数据分析。笔者收集了裁判文书网和聚法案例网上共54409份刑事一审判决书,先讨论了四川省范围内的整体辩护率,大致把握了辩护率的整体面向,再以辩护性质、法院层级、审理程序、犯罪类型等分类指标对数据进行更加细致的差异分析。最后,通过考察被告人各身份指标下的不同辩护情况,笔者提出了刑事辩护资源分配上目前存在的“财富效应”现象。类似研究还有王禄生基于对303万判决书大数据的自然语义挖掘,提取了研究所需的逮捕转非羁押率、不必要逮捕率、捕后轻刑率等个性化指标。然而,在难度更大的深层数据、隐性数据,比如原被告的主张及相应证据、法院的说理和判决结果等信息的获取上尚未出现充分有效的技术手段,也尚无研究者实现对此的大数据分析。

  相应地,研究者对数据分析方法的运用也趋于单调。在面对大数据的整理与分析时,法学研究者大多“还不能科学、熟练地运用数理统计等分析手段与方法对问题展开统计学意义上的定量分析,更遑论在研究中进行数理模型的建构”。法学实证研究在整体上仍以基础的平均数、频数、方差等描述性统计方法为首要工具,这与当前经济学、管理学等学科的研究技术水平相去甚远。描述性研究在对经验现象的特征勾勒上起到了重要作用,但在面对构建事物间的相关性甚至是因果性这类深入研究时便显得捉襟见肘。因为包括大数据法学研究在内的法律实证研究不应当仅仅是描述现象的工具,更需承担着揭示法律运作过程的规律、深度阐释事实背后的相关关系甚或因果关系的任务。

  大数据研究的主题及结论亦缺乏应有的学术深度和创新性。数据的选取与分析跟研究的主题与展开过程息息相关。首先,浅层数据、显性数据所呈现出的只是司法实践的大致面相,无法实现对某一专门化研究主题的深入分析。除掣肘于所能挖掘到的数据类型外,研究者对主题的选取也很大程度上局限于已有的现实问题,试图通过数据分析的新角度对其提出解决对策。其次,现阶段研究中的数据往往只是一个论证理论主张的理据,远非论理的基础或核心。由此,目前研究多是对数据的一种纯手段性的运用,研究者仍多以主观性较强的学理性解释作为补充甚或主要的论述理由。质言之,一些研究成果都囿于既有理论的框架,数据无法发挥出导向性的作用,所得结论也略显老套,甚至浮于浅显笼统的数据结论,可能脱离于真实的司法实践,研究者鲜少能发现异于传统认知的客观事实,缺乏发人深省的问题揭示与理论思辨,更毋论建构以数据为支撑的全新理论。

  何以形成上述问题?笔者以为主要在于技术门槛要求严格、已公开裁判文书不能反映出真实的司法实践全貌及研究者未能跳出现有法律理论的先验框架三个方面。

  其一,对当前的法学研究者而言,数据的收集、清洗、处理及分析等方面都存在着天然的技术门槛限制。法律大数据研究的核心在于对海量数据的价值挖掘、处理,研究者掌握与运用相关技术方法的能力在很大程度上决定了研究的深度与层次,而在数据运用方面的薄弱可能导致研究结论流于肤浅甚至产生谬误。与数据打交道的必要步骤为大数据法学研究设定了先天的技术门槛,但传统的法律研究者很难娴熟掌握统计科学及计算机科学的新技术。上网裁判文书量的巨大决定了研究者自然不可能以手工下载的方式一份份收集文书。基于大量数据获取的需要,研究者已经开始使用爬虫软件等方式抓取数据。但由于通过网络爬虫系统获取裁判文书网数据的行为会造成网站负荷过大、影响正常用户的访问,最高法成立的专门运维保障团队已采取验证码等多种方式上线系统软件防爬功能,不断加强“反爬虫”技术,使得研究者获取大量数据的过程愈发艰难。而文书的获取只是大数据研究的起点,爬虫软件所抓取的文书是典型的无标签非结构化数据,其中包含了大量重复文书、空白文书等“脏数据”,需要再次进行数据清洗。数据清洗的目的是为挖掘提供准确而有效的数据,因此需要过滤或修改不完整的数据、错误的数据和重复的数据等。数据清洗可以采用最简单易行的方法,即删除或忽略缺失值,但这伴随着损失样本量、统计功效弱的缺陷。更为精细的数据清洗方法还有插补、均值插补、离群点分析等,这些方法的恰当运用要求研究者具备一定的统计学与计算机科学基础。更为重要的是,非结构化数据还需要经历被转化为结构化数据的过程。如前所述,研究者对裁判文书主文的内容挖掘程度尚浅,但更具研究价值的大多是不易于被提取的深层指标。法律文本挖掘的困难来源于实践中司法表达的极其丰富性加之法律规则及体系的不断变化性。因此现实中部分研究者仍在采用逐份手工统计的办法来进行数据资源的挖掘。这种耗时耗力的原始数据挖掘方法极大增加了数据研究的成本,只能适用于小数据样本的信息挖掘,但大数据时代海量的材料与数据决定了研究者难以再亲自、逐一地审阅、统计和分析。最后,研究者需要对处理后的数据内容作出分析。其中,多数研究者仍停留于描述性的数据分析为主的阶段,往往停留在经验性地描述研究对象特征的层面,对因果关系的分析也只能作传统的推测性演绎,很少有研究者能够使用统计软件与统计学分析方法如断点回归、双重差分、匹配等对数据资料进行精确的定量分析。而随着大数据研究的深入和复杂化,更加专业化的机器学习与算法应用等工具也将进入研究者的视野。

  其二,目前所公开的裁判文书只是全国范围内有缺失的数据,其缺失既源自数据公开渠道的限制,又源自数据公开范围的限制。一方面,裁判文书网(包括庭审公开网、执行信息公开网)是以法院为中心的信息公开,这一公开渠道对司法实践的反映是有限的。裁判文书网公开的信息主要是诉讼型信息、法院审判信息。而其余关键的程序过程如警察的侦查过程、检察院的起诉过程、法院庭审前后的过程都没有公开的、正式或非正式的文字记录,更遑论在此基础上的数据化。而庭审公开网则仅仅是部分案件庭审阶段的视频数据。执行信息公开网提供的则主要是失信被执行人等的身份信息。另一方面,在公开渠道单一、公开阶段特定的框架下,数据仍存在一定程度的范围缺失,体现为随机性缺失和系统性缺失两类。系统性缺失的数据是法律规定不能公开或不宜公开的案件,如未成年人犯罪案件、涉及国家秘密的案件等。笔者之前关于刑事辩护率的研究发现,在法定不上网的刑事案件中数量最多的可能是未成年人犯罪案件,至于涉及国家秘密的案件、调解案件以及其他不宜在互联网公布的刑事案件数量很少。而根据以往《中国法律年鉴》的数据,未成年犯罪人约占全国当年全部犯罪人数的5%~10%。因此,上网裁判文书所涉及的案件类型并不全面。随机性缺失的数据则是依据法律规定应当上网公开但由于种种原因没有上网的案件,包括但不限于尚未生效的案件,比如提起上诉、抗诉的案件等。这些案件尚未上网,但却会被计入当年结案数。此外,随机性缺失的数据还可能包括由于工作滞后而上网不及时导致的晚公开案件等。因此,数据随机性缺失的程度与负责实际数据传输的各个法院及有关工作人员的工作落实情况息息相关。基于上述原因,从整体数量上看,裁判文书网已经公布的裁判文书数据并不完全具备全样本特征:公布文书数量与实际结案文书数量相差较大,数据缺失问题相当严重。有学者对于全国法院2014年和2015年的裁判文书上网所做的统计显示:按省份看,上网裁判文书占实际结案文书比重最高的达78.14%(陕西),最低的仅为15.17%(西藏);最高法在上述两年的上网裁判文书仅占其实结案件量的46.13%,这一比重与全国的总体情况大体持平。截至2019年7月6日,四川省的法院在2017年至2018年间的裁判文书上网约143.82万份,而根据四川省高级人民法院工作报告,2017年至2018年间全省共审结案件216.79万件,再考虑到每一起案件可能会同时具有判决书、裁定书、决定书等多份文书,这些审结案件所生成的裁判文书总量当然更远远多于216.79万件。综上而言,现阶段中国法律大数据整体上是以裁判文书网为主要来源的官方化、半结构化或非结构化的大量数据,实质上只是全国法律领域内的有限的、角度特定的数据。由此,“现实中的大数据”往往是有缺失的大量数据。若研究者意图开展反映我国法律和司法实践全貌的研究,则面对的只是“残缺”大数据,无法以直接上网的裁判文书样本推论到整体样本情况。上网裁判文书在数量、地域、案件类型等各个方面的偏差也决定了特定范围的数据研究不一定能够获取到有代表性的全样本数据。而过往的数据研究经验已经表明未经调整的不具代表性的数据极有可能导致错误的结论。

  此外,裁判文书本身就是一种不完全的记载形式。当我们说已公开的裁判文书不能反映出我国司法实践的全貌时,不仅仅是在谈论裁判文书当前有限制的公开范围和公开数量,同时也是在强调裁判文书这一信息载体的本质缺陷。换言之,裁判文书不可能精确地记录下司法实践中影响法院审判案件的所有法律或非法律的因素及其在司法实践中真实的作用效果。白建军对裁判文书背后可能存在的司法潜见作用的大数据研究就是一个很好的揭示。因此,我们在面对单个的裁判文书尚会存有这样的疑问:是否所有与案件相关的因素都在裁判文书中被提及了,有哪些因素可能被遗漏?会不会非法律的因素被包装成为法律的因素继而被呈现于裁判文书之中?是否文书中频繁提及了的内容一定是相对重要的?这些问题都是单薄的一纸文书无法向研究者提供答案的。可以说,裁判文书必然带着一定的“欺骗性”,过于依赖和偏信裁判文书信息可能会产生如下的问题:第一,忽略文本之外的其他相关要素;第二,非法律的要素被包装成法律要素并被研究者提取;第三,错误认识文本中某些要素的重要程度。裁判文书中存在的偏见和错误如果未被重视并加以纠正,在经过数据处理后会被保留甚至放大,并最终导致研究结论不同程度地偏离于客观的司法实践。

  其三,国内研究者尚未摆脱先验法律理论框架的束缚。当下大数据研究展开的方式都以文本识别与挖掘为起点,所提取的裁判文书中的要素多是法律意义上的关键要素、重要的法律特征,比如犯罪构成四要件、定罪要素和量刑要素等。就算在一些深层指标如争议焦点的提取上有了机器学习的介入,但所使用的都是有监督的机器学习,在设计者所给定的先验框架下完成特定约束条件下的识别。因此,研究者不免带着先入为主的提取假设甚至研究假设,这使得国内现有的数据研究大多属于“理论导向”,即工具性地运用数据来验证既存的理论,而未将利用数据研究发现新现象、打造新理论的努力付诸实践。加之现有研究普遍缺乏较为精细的数据处理模型与严密的理论阐释体系,多是对各种法律数据的简单归类统计,因此能从数据直接分析得出的客观结论不够丰富,这使得仅仅作为论据的数据结果也远非严谨精确。大数据的潜力不止于此。实证研究的出现已架起了传统法教义学的话语与司法现实语境之间的桥梁,而司法大数据资源的涌现则使得现实中的图景更加清晰细致。面对海量、免费的大数据资源,我们更有可能从中获得全新的信息、知识,极大扩展法学研究的范围与领域,生产出“数据导向”的学术研究成果。但国内的研究者们尚停留在对大数据的粗浅运用阶段,在官方话语、法律概念和传统法律理论的束缚下,既未意识到大数据丰富的待挖掘价值,也未能掌握处理大数据的科学方法,总之未能展示出以大数据重新认识法律实践、挑战权威法律理论的信心与能力。与此同时,部分国外学者开展的研究很值得我们参考与借鉴。如Holger Spamann及其合作者通过实验数据揭示了新现象,即判例法国家的法官在判案时反而比大陆法国家的法官更少受到既往先例的影响,且法官们还会不恰当地把与法律无关的因素纳入考虑。虽然研究者尚未对这一意料外的实验结果提供理论上的解读,但类似事实的发现与人们的常识和传统认知大相径庭,必定会引发学界深入的追踪与探讨。更进一步地,Alexander Stremitzer及其合作者基于新现象的发现,构建了一种新理论——与传统的“取法于上,仅得为中,取法于中,故为其下”的说法刚好相反,Stremitzer的研究表明设定要求过高的规则反而会收到适得其反的效果,而中规中矩的规则能收获更好的实施效果。上述研究向我们展示了数据具有跳出既有观点与理论框架的束缚,直接揭示出客观世界隐藏面向的巨大潜力,这正是实证研究相较于法教义学所更具客观性、科学性的一面。

来源:北大法律信息网

关闭

版权所有:邹城市人民法院 ICP备案号:鲁ICP备13032396号

地址:山东省邹城市普阳山路996号 电话0537-5213281 邮编:273500