您现在的位置是: 查看项目信息
项目编号: 201710359018
项目名称: 基于数据挖掘技术的司法判决书事件抽取系统
所属院系: 计算机与信息学院
项目主持人: · 姓名:薛婵
· 专业:2015计算机科学与技术
· Email:1515441330@qq.com
项目成员: · 姓名:马凤君
· 专业:2015计算机科学与技术
· Email:
项目成员: · 姓名:岑杭家
· 专业:2016计算机科学与技术
· Email:abxz181@163.com
指导教师1: · 姓名:胡学钢
· 职称:
· 研究方向:
指导教师2: · 姓名:吴共庆
· 职称:副教授
· 研究方向:
项目内容简介:

在司法公开的背景下,最高法院要求自201411日起,各级法院应当以公开为原则、不公开为例外,将符合条件的生效裁判文书在互联网公布。这是司法领域史无前例的浩大工程,它对应的是全国3000余家法院,以及年均审结1000余万件的案件数量。从公开的无结构化司法判决书大数据中抽取结构化事件,是对这些文书进行研究分析的基础,司法判决书大数据将成为法律服务市场的朝阳产业,本项目是该领域的一种有益探索。

项目特色与创新点:

1)基于序列标注和实体属性值抽取的事件抽取是本项目的特色之一。事件抽取就是抽取出一系列的属性-属性值对的集合。在实现事件抽取时,通过人工对训练集进行标注,训练条件随机场模型,以实现序列标注。对标注的文书,识别实体在其所具有属性上的取值,最终实现文本数据结构化存储。

2)基于触发词的序列标注是本项目的特色之二。采用触发词激励的方法,学习形成触发词的词表来进行序列标注。先对文本中的所有词进行判断以确定其是否是事件触发词,然后再根据相关的信息判断事件的类型,从而得出其所含的事件元素类型,构建出识别事件元素的分类器。

3)本项目的另一特色是基于触发词的实体属性值抽取。对于已经标注的语句,利用触发词词表中的词语,对应到文本中的相应位置,开始实体属性值抽取。对文本中的实体标注进行统计,抽取其实体属性值,进行文本分析。