微信扫一扫,关注公众号

  • 科技行者

  • 算力行者

见证连接与计算的「力量」

首页 浙江大学团队全球首创:让AI帮普通人写诉状的中文法律数据集ClaimGen-CN

浙江大学团队全球首创:让AI帮普通人写诉状的中文法律数据集ClaimGen-CN

2025-09-03 11:39
分享至:
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-
2025-09-03 11:39 科技行者

你在生活中遇到过法律纠纷吗?比如借钱不还、买到假货、租房押金被扣,或者遭遇其他不公平待遇?当你想要维权却不知道如何表达自己的诉求时,是否曾经感到无助?现在,浙江大学的研究团队带来了一个令人兴奋的突破——他们开发了全球第一个专门帮助普通人生成法律诉讼请求的中文数据集ClaimGen-CN,就像为每个需要维权的普通人配备了一位AI法律助手。

这项由浙江大学周思颖、吴一权、陈慧等研究者与奥地利因斯布鲁克大学Adam Jatowt教授合作完成的研究发表于2025年8月,论文完整标题为《ClaimGen-CN: A Large-scale Chinese Dataset for Legal Claim Generation》,研究成果已在学术界引起广泛关注。有兴趣深入了解的读者可以通过arXiv:2508.17234访问完整论文,研究团队还承诺将数据集公开发布,让更多人能够受益。

想象一下这样的场景:一个从未接触过法律的普通人遭遇了权益侵害,他只需要简单描述事情的经过,AI就能自动生成专业、准确的法律诉讼请求。这不再是科幻电影中的情节,而是浙江大学研究团队正在努力实现的现实。他们的研究聚焦于一个此前从未被探索过的重要领域——如何让人工智能帮助非专业人士生成法律诉状,真正实现"让法律服务普惠大众"的理想。

这项研究的创新性不仅体现在技术突破上,更重要的是其关注视角的转变。过往的法律AI研究主要服务于法官、律师等专业人士,就像为已经熟悉厨房的大厨提供更好的工具。而这项研究则把目光投向了那些对法律一知半解的普通人,为他们提供了一把打开法律大门的钥匙。研究团队从全国各地收集了超过20万份真实的民事法律文书,涵盖100种不同类型的法律纠纷,构建了一个规模庞大、内容丰富的数据宝库。

一、首次关注普通人法律需求的研究突破

传统的法律AI研究就像专门为专业厨师设计高端厨具一样,主要关注如何帮助法官更快做出判决,或者协助律师更高效地处理案件。然而,现实生活中更多的情况是:普通人面临法律问题时,往往不知道如何准确表达自己的诉求,就像一个从未下过厨的人突然需要准备一顿丰盛的晚餐,却不知道从何下手。

浙江大学的研究团队敏锐地察觉到了这个被忽视的重要领域。他们发现,在整个法律流程中,庭前阶段——也就是普通人准备起诉材料的阶段——同样重要,却很少得到技术支持。这就像盖房子时,大家都关注如何让建筑师设计得更好,却忽略了帮助普通人画出第一张草图的需求。

研究团队将法律流程分为两个关键阶段:庭前场景和庭内场景。庭前场景主要是为当事人准备法律诉求,而庭内场景则是这些诉求得到审理和裁决的过程。他们的工作专注于庭前阶段,这个决定具有深远的社会意义。想象一下,如果每个遭遇不公的普通人都能获得AI的帮助,准确地表达自己的法律诉求,那么整个社会的法律公正性和可及性将得到显著提升。

这种研究视角的转变带来了前所未有的技术挑战。与为专业人士设计的系统不同,面向普通人的法律AI需要处理更加复杂和多样化的输入。普通人描述法律事实时往往带有强烈的情感色彩,语言不够规范,逻辑也可能不够清晰。这就像要求AI理解一个愤怒的人用方言夹杂着抱怨所讲述的复杂故事,然后将其转化为严谨的法律语言。

二、覆盖百种纠纷类型的庞大数据集构建

为了训练能够理解普通人语言并生成专业法律文书的AI系统,研究团队面临的首要挑战就是数据收集。这就像要教会一个AI厨师烹饪各种菜系,首先需要收集来自世界各地的菜谱。研究团队从中国裁判文书网收集了207,748份真实的民事法律文书,这个数据量相当于一个经验丰富的律师一生中可能接触到的案件总数的数十倍。

数据收集过程就像考古挖掘一样需要极其细致的筛选和整理。研究团队只选择一审民事判决书,并过滤掉那些因某些原因无法公开的文书。每份文书都需要经过复杂的内容分割过程,就像将一本厚厚的小说按章节分解,最终保留与任务相关的部分。研究团队将每份文书分解为引言、原告事实陈述、原告诉求、被告辩词、法院认定和判决结果等不同部分,其中原告的事实陈述作为输入,原告的诉求作为期望输出。

在所有收集的数据中,研究团队发现了134种不同的案件原因。为了保证数据质量和代表性,他们保留了最常见的100种民事案件类型,构建了主数据集ClaimGen-CN。这100种案件类型就像一个全面的法律百科全书,涵盖了普通人在日常生活中可能遇到的绝大多数法律纠纷,包括民间借贷、离婚纠纷、买卖合同争议、劳动争议、房屋租赁合同纠纷、赡养纠纷、教育培训合同争议等等。

除了主数据集,研究团队还构建了一个特殊的测试集ClaimGen-CN-test,包含1000个案例。这个测试集的特殊之处在于,其中的案例都是法院完全支持原告诉求的案件,这意味着这些诉求不仅在法律上站得住脚,而且表述准确、逻辑清晰。这就像为AI提供了一套标准答案,让它知道什么样的法律诉求是最佳的。

数据集的规模和多样性令人印象深刻。ClaimGen-CN不仅是目前最大的民事诉讼数据集,拥有207,748条记录,而且在案件类型的多样性方面也远超以往的研究。以前的开源数据集大多只关注某一特定领域,比如民间借贷,而ClaimGen-CN则像一个法律超市,涵盖了生活的方方面面。

三、评估AI法律助手的双重标准体系

仅仅拥有庞大的数据集还不够,研究团队还需要建立一套科学的评估体系来衡量AI生成的法律诉求质量。这就像评判一道菜的好坏不能只看分量多少,还要考虑味道、营养、外观等多个维度。传统的文本生成评估方法主要关注文字的相似度,就像只看两道菜用了多少相同的食材,却不关心最终的味道如何。

研究团队创新性地提出了两个专门针对法律诉求的评估维度:事实性和清晰性。事实性要求AI生成的诉求必须基于客观存在的事实,不能凭空捏造或歪曲事实。这就像做菜时不能把没有的食材写进菜谱里,或者把盐说成糖。清晰性则要求诉求表述要具体明确,比如要求赔偿损失时必须明确具体金额,要求公开道歉时要明确道歉的方式和范围等。

为了验证这套评估体系的可靠性,研究团队进行了细致的对比实验。他们让GPT-4o对100个由DeepSeek-R1生成的案例进行评分,然后与人工专家的评分进行对比。结果显示,在事实性维度上,AI评分与人工评分的一致性达到了81.05%,在清晰性维度上达到了73.68%。这个结果表明,AI已经能够相当准确地判断法律诉求的质量,就像一个经验丰富的品酒师能够准确判断红酒的品质一样。

有趣的发现是,AI在评估事实性方面表现更加稳定,而在评估清晰性方面稍有不足。这可能是因为事实性更多涉及客观判断(事实是否存在,逻辑是否一致),而清晰性则涉及更多主观因素(表述是否够清楚,普通人是否容易理解)。这个发现为未来改进AI评估系统提供了明确的方向。

四、六大主流AI模型的较量与发现

有了数据集和评估标准,研究团队开始测试当前最先进的AI模型在法律诉求生成任务上的表现。他们选择了六个代表性的模型进行零样本测试,包括GPT-4o、LLaMA3.1、Claude3.5、Qwen2.5、DeepSeek-R1和专门的法律AI模型Farui。这就像让六位来自不同背景的厨师用相同的食材制作同一道菜,然后比较他们的手艺高低。

零样本测试的设置特别有意思。研究团队没有给这些AI模型提供任何示例或特殊训练,只是简单地告诉它们"请根据以下事实生成原告的诉讼请求"。这种测试方式更接近真实使用场景,就像让厨师在不知道具体食谱的情况下,仅凭对菜名的理解来制作菜肴。

测试结果展现了有趣的模式分化。在传统的文本相似度指标(如BLEU、ROUGE等)上,Claude3.5表现最佳,就像在外观上最接近标准菜品。然而,在更重要的事实性和清晰性评估上,DeepSeek-R1却脱颖而出,获得了65.79的总分,在事实准确性和表述清晰度方面都表现出色。

这种评估结果的差异揭示了一个重要问题:传统的文本评估方法可能并不适用于法律文本生成任务。就像评判菜肴不能只看外观是否精美,更要关注营养价值和口感一样,评估法律文本也需要更加注重内容的准确性和实用性,而不仅仅是表面的文字相似度。

研究团队还发现,专门的法律AI模型Farui的表现并不如预期。在事实性评估中,Farui只获得了42.85分,在清晰性方面也只有46.28分,总分44.56分,排名垫底。这个结果提醒我们,专门化的AI模型并不总是意味着更好的性能,通用大模型在经过适当调整后可能会有更好的表现。

五、AI在法律诉求生成中的四大短板

通过详细的错误分析,研究团队发现当前AI模型在法律诉求生成任务中存在四个主要问题,就像诊断一个病人的症状一样,每个问题都有其特定的表现和影响。

第一个问题是法律知识的缺乏。AI模型往往无法准确理解法律事实之间的关联关系。研究团队举了一个典型例子:在一个借贷纠纷案例中,模型错误地认为利息应该从比实际约定时间早一个月开始计算。这就像一个不懂烹饪的人看菜谱时,不知道"炒至半熟"具体是什么状态,结果把菜做糊了。AI缺乏对法律时间节点、因果关系和法律后果的准确理解,导致生成的诉求在法律逻辑上存在缺陷。

第二个问题是法律数学逻辑的断裂。在涉及复杂计算的案件中,AI模型经常无法正确处理多步骤的量化推理。比如在一个遗产继承案例中,大多数模型无法正确计算继承份额,将本应精确的"50% × 1/4 = 1/8"的法律计算简化为模糊的"按比例分配"。这就像让AI解一道数学应用题,它能理解题目大意,但在具体计算步骤上出错,导致最终答案完全错误。

第三个问题是诉求生成的两极化偏差。AI模型要么生成过多不必要的诉求,要么遗漏essential的关键诉求。在某些案例中,GPT-4o和Qwen2.5会自动添加原告从未提及的精神损害赔偿和利息要求,这可能是因为在债务相关的训练样本中这类诉求出现频率较高。相反,在另一些案例中,某些模型会遗漏确认合同效力等法律上必需的前置诉求。这就像烹饪时要么添加了食谱中没有的调料,要么忘记了关键的基本调料,都会影响最终效果。

第四个问题是系统性的不稳定输出。这个问题在LLaMA3.1模型上表现得尤为明显。在一个案例中,该模型复制粘贴了超过180条消费者保护法条文,却没有筛选出相关条款,使回复变得冗长而无意义。在其他多个案例中,LLaMA3.1重复生成相似的法律诉求超过五次,显示出对输出长度和内容的控制能力不足。这种问题就像一个话痨在法庭上重复同样的话,不仅无助于案件解决,反而可能模糊重点,影响法官的判断。

六、案例解剖:AI法律助手的实战表现

为了更直观地展示不同AI模型的表现差异,研究团队详细分析了一个典型案例。这个案例涉及一起人身伤害纠纷:2018年12月29日,原告和被告在火车站因琐事发生口头争执,被告伤害了原告。原告出院后需要进一步治疗,但被告虽然已经支付了初期住院费用,却拒绝支付后续治疗费用。

面对这样一个相对简单的事实描述,不同AI模型生成的法律诉求展现出截然不同的水平。这就像让几个不同水平的学生根据同一个故事写作文,结果会有天壤之别。

GPT-4o的表现可以称为优秀。它生成的诉求既准确又全面:"请求法院依法判令:被告赔偿原告因本次伤害事件产生的后续治疗费用(具体金额可在起诉时根据实际票据补充);被告承担本案全部诉讼费用。"这个表述不仅事实准确,还考虑到了实际操作中的灵活性,就像一个经验丰富的律师会在诉状中写的那样。

Qwen2.5和DeepSeek-R1也表现不错,它们的诉求简洁明了,直接要求被告支付后续治疗费用。这种简洁有力的表述在法律实践中往往更受法官青睐,因为它直击要害,没有不必要的冗余。

相比之下,Claude3.5和LLaMA3.1的表现就差强人意了。Claude3.5莫名其妙地提到了"两名被告"和"工资协议",这些都是案件事实中不存在的内容,就像在讲故事时突然冒出了不相关的人物和情节。LLaMA3.1则犯了数字错误,将治疗费用错误地表述为12,000元和1,000元的营养费,而不是案件中实际涉及的16,000元总费用。

最让人意外的是Farui的表现。作为专门的法律AI,它生成了极其冗长的诉求,包含大量不必要的法律条文引用和重复表述,但在核心诉求的准确性和清晰性方面反而不如通用大模型。这就像一个法学生试图通过堆砌法律术语来显示专业性,结果反而模糊了重点,影响了表达效果。

七、技术评估揭示的深层问题

研究团队的技术评估不仅仅是简单的模型排名比较,更重要的是揭示了当前AI技术在法律应用中面临的根本性挑战。这些发现就像医生通过症状诊断疾病的根本原因,为未来的技术改进指明了方向。

首先,传统的文本评估指标与法律文本的实际质量之间存在明显脱节。Claude3.5在BLEU、ROUGE等传统指标上表现最佳,但在实际的事实性和清晰性评估中却不如DeepSeek-R1。这个发现提醒我们,评估法律AI需要专门设计的评估体系,不能简单沿用通用文本生成的评估方法。这就像评判一个外科医生的水平不能只看他的理论考试成绩,更要看实际手术的成功率和患者的康复情况。

其次,模型在自动化评估和人工评估之间表现出的差异也值得关注。虽然GPT-4o在传统指标上表现良好,但在基于GPT-4o的人工智能评估中,其得分却低于其他几个模型。这种差异突显了引入以人为中心的评估方法的重要性,特别是对于法律文本生成这样复杂的任务。

研究团队通过人工评估验证了AI评估的可靠性。他们让三名专业标注员对100个随机样本进行评分,结果显示标注员之间的一致性达到0.6823(根据Landis和Koch的解释标准,这表示"实质性一致")。同时,人工评分与GPT-4o评分之间的相关性也达到了0.5197,表明AI评估系统具有相当的可信度。

八、未来发展的技术路径探索

基于深入的错误分析,研究团队为法律诉求生成技术的未来发展提出了几个重要方向。这些建议就像为一个正在成长的孩子制定学习计划,针对性地解决当前存在的问题。

首先是大小模型协作的方案。研究团队建议使用轻量级模块来识别关键事件或法律规则,然后再调用大型模型进行结构化的诉求生成。这就像组建一个专业团队,让擅长细节分析的专家先梳理案件要点,然后由擅长写作的专家负责最终的文书撰写。这种分工协作的方式可以充分发挥不同模型的优势,提高整体效果。

其次是长链推理技术的应用。许多法律案件涉及复杂的时间线和因果关系,比如贷款发放、违约、利息计算等多个环节。研究团队建议开发专门的推理链技术来处理这类复杂的法律逻辑关系,增强推理的完整性和准确性。这就像教AI学会按步骤解决复杂的数学应用题,每一步都要逻辑清晰、计算准确。

第三个方向是基于法律专业反馈的强化学习。研究团队建议设计任务特定的奖励函数,对缺乏事实支持的诉求进行惩罚,对遵循法律有效推理路径的诉求进行奖励。这种方法就像培训一个学徒,通过不断的练习和专家指导,逐步提高技能水平。

这些技术改进方向的提出,不仅基于深入的实验分析,更重要的是与现实世界的法律任务需求紧密结合,确保技术发展的实用性和可靠性。

九、研究意义与社会影响展望

这项研究的意义远不止于技术层面的突破,更重要的是它可能带来的社会影响。研究团队在论文中明确表达了一个重要理念:如果我们能够推动AI的边界,明确要求它对人民和社区产生积极影响,将成功的定义明确包含这一点,AI就能让世界变得更美好。

想象一下这样的未来场景:一个普通的农民工因为工资被拖欠而苦恼,他不懂法律条文,也请不起律师,但他可以简单地向AI描述自己的遭遇,AI就能帮他生成专业、准确的法律诉求。一个消费者买到假货想要维权,不再需要花费大量时间研究消费者权益保护法,AI助手能够根据具体情况自动生成合适的诉讼请求。这种技术普及将真正实现"让法律服务触手可及"的理想。

当然,研究团队也充分认识到这项技术可能带来的风险和挑战。在论文的伦理声明部分,他们详细阐述了数据安全保障措施和技术使用的限制条件。研究使用的数据来源于政府公开发布的匿名化法律文书,不涉及个人隐私信息。同时,团队承诺在发布数据集时会提供使用限制说明和适用场景指南,并实施访问限制措施,要求申请者提供真实身份信息。

更重要的是,研究团队强调这项技术的目标是辅助而非替代专业法律服务。在技术应用中会明确标注"此答案可能有误,仅供参考",并建议用户"在做出最终决定前,应咨询合格的律师"。这种负责任的技术开发态度值得其他AI研究者学习和借鉴。

十、技术细节与创新突破

从技术角度来看,ClaimGen-CN数据集的构建过程展现了高度的专业性和创新性。研究团队需要处理的不仅仅是海量数据的筛选和清洗,更重要的是理解和建模法律语言的特殊性质。

法律文本与普通文本的最大区别在于其严格的逻辑结构和精确的表达要求。一个词语的微妙差别可能完全改变法律条款的含义,一个逻辑链条的缺失可能导致整个诉求无效。研究团队在数据处理过程中需要保持这种精确性,同时又要确保AI模型能够理解和学习这些复杂的法律逻辑。

数据集的多样性也是一个重要创新点。以往的法律数据集往往局限于某一特定领域,就像只收集某一种菜系的菜谱。而ClaimGen-CN涵盖了100种不同类型的民事纠纷,从简单的债权债务关系到复杂的婚姻家庭纠纷,从商业合同争议到侵权损害赔偿,几乎涵盖了普通人可能遇到的所有法律问题类型。

更值得注意的是,研究团队在数据集构建过程中充分考虑了中国法律体系的特殊性。不同国家的法律制度存在显著差异,简单移植国外的研究成果往往水土不服。ClaimGen-CN基于中国的法律框架和司法实践,确保了技术应用的本土化适用性。

说到底,这项研究代表了人工智能技术从"服务专业人士"向"普惠大众"转变的重要一步。研究团队通过构建全球首个中文法律诉求生成数据集,不仅为AI技术在法律领域的应用开辟了新方向,更重要的是为实现"法律面前人人平等"的理想提供了技术支撑。虽然当前的AI模型在法律推理和表达方面还存在不足,但这项研究为未来的技术改进奠定了坚实的基础。

随着技术的不断进步和完善,我们有理由相信,在不久的将来,每个普通人都能获得AI法律助手的帮助,让法律服务真正成为人人都能享受的公共资源。这不仅是技术的进步,更是社会公正的重要推进。当法律不再是少数人的特权,当每个人都能准确表达自己的合法诉求时,我们的社会将变得更加公平、和谐。

研究团队承诺将公开发布ClaimGen-CN数据集,让全球的研究者都能基于这个平台进行创新和改进。这种开放共享的精神体现了学术研究的本质——通过集体智慧解决人类共同面临的挑战。有兴趣的研究者可以通过GitHub平台(https://github.com/JosieZhou00/ClaimGen-CN)访问完整的数据集和相关代码,为这个激动人心的研究领域贡献自己的力量。

Q&A

Q1:ClaimGen-CN数据集包含哪些类型的法律案件?

A:ClaimGen-CN数据集涵盖了100种不同类型的民事法律纠纷,包括民间借贷、离婚纠纷、买卖合同争议、劳动争议、房屋租赁合同纠纷、赡养纠纷、教育培训合同争议等,基本涵盖了普通人在日常生活中可能遇到的所有主要法律问题类型。

Q2:目前的AI模型在生成法律诉求时存在哪些主要问题?

A:研究发现AI模型主要存在四个问题:缺乏法律知识导致无法准确理解法律事实关联;法律数学逻辑断裂,无法正确处理涉及计算的复杂推理;诉求生成存在两极化偏差,要么添加不必要内容要么遗漏关键诉求;系统输出不稳定,可能产生冗长重复或不相关的内容。

Q3:普通人什么时候能用上AI法律助手来写诉状?

A:虽然研究团队已经构建了数据集并进行了初步测试,但目前的AI模型在法律准确性方面还存在不足。研究团队强调这项技术目标是辅助而非替代专业法律服务,建议用户在使用时仍需咨询专业律师。随着技术不断改进,未来几年内可能会有更实用的AI法律助手产品面市。

分享至
0赞

好文章,需要你的鼓励

推荐文章
----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.- ----..---.-...-/--...-.-......./-...-....-..--../-............-.-