法律文本的自然语言处理?

9
我有数十万份法律文件的语料库(主要来自欧盟)- 法律、评论、法庭文件等等。我试图通过算法对它们进行归纳总结。已经建模了已知的关系(时间、这种变化那种变化等)。但在单个文档层面上,我希望有更好的工具来实现快速理解。我愿意听取想法,但以下是一个更具体的问题:例如:是否有自然语言处理方法可以确定文档中相关/有争议的部分而不是套话?最近泄露的TTIP文件有数千页数据表,但其中一句话可能会毁掉一个行业。我之前尝试过谷歌的新的Parsey McParface和其他NLP解决方案,虽然它们的效果令人印象深刻,但我不确定它们隔离含义的能力有多强。
3个回答

5
为了从文档中获取有意义的信息,您需要进行某种语义分析。以下是两种主要可能性及其示例:
使用框架语义学: http://www.cs.cmu.edu/~ark/SEMAFOR/ 使用语义角色标注(SRL): http://cogcomp.org/page/demo_view/srl 一旦您能够从文档中提取信息,则可以应用一些后处理以确定哪些信息是相关的。找到哪些信息是相关的与任务有关,我认为您无法找到一个通用的工具来提取“相关”的信息。

2
我看到您有一个有趣的用例。您还提到了语料库(这是非常好的加分项)。让我介绍一下我曾经为从研究论文中提取要点而草拟的解决方案。
为了理解文档,您需要触发器来告诉(或训练)计算机查找这些“触发器”。您可以使用监督学习算法来处理最基本级别的文本分类问题,并进行简单的实现。但是,这需要先前的工作,最初需要领域专家的帮助来辨别文本数据中的“触发器”。有一些工具可以提取句子的要点-例如,在句子中获取名词短语,根据共现分配权重并将其表示为向量。这是您的训练数据。这可以是将自然语言处理纳入您的领域的良好开端。

0
不要使用触发器。你需要的是词义消歧和领域适应。你想要理解文档中的语义以便弄清含义。你可以在skos或json-ld格式中构建一个法律术语本体,并在知识图谱中本体化表示,然后与依赖解析(如tensorflow/parseymcparseface)一起使用。或者,你可以使用基于kappa的架构流式传输文档,例如kafka-flink-elasticsearch,并使用CoreNLP/Tensorflow/UIMA添加中间NLP层,使用redis缓存flink和elasticsearch之间的索引设置以加快处理速度。为了理解相关性,你可以在搜索中应用特定的提升案例。此外,应用情感分析来确定意图和真实性。你的用例是信息提取、摘要和语义Web/链接数据之一。由于欧盟有不同的法律制度,因此你需要先概括什么是真正的法律文件,然后将其缩小到与主题或地区相关的特定法律概念。你还可以使用LDA或Word2Vec/Sense2Vec的主题建模技术。此外,Lemon也可能有所帮助,从词汇转换为语义和从语义转换为词汇,即NLP->本体->本体->NLP。基本上,将聚类馈送到命名实体识别的分类中。你还可以使用聚类来帮助构建本体或查看文档或一组文档中的词向量,使用余弦相似度。但是,为了做到这一点,最好可视化文档的单词稀疏性。在你的情况下,常识推理+深度学习也可能有所帮助。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接