我有数十万份法律文件的语料库(主要来自欧盟)- 法律、评论、法庭文件等等。我试图通过算法对它们进行归纳总结。已经建模了已知的关系(时间、这种变化那种变化等)。但在单个文档层面上,我希望有更好的工具来实现快速理解。我愿意听取想法,但以下是一个更具体的问题:例如:是否有自然语言处理方法可以确定文档中相关/有争议的部分而不是套话?最近泄露的TTIP文件有数千页数据表,但其中一句话可能会毁掉一个行业。我之前尝试过谷歌的新的Parsey McParface和其他NLP解决方案,虽然它们的效果令人印象深刻,但我不确定它们隔离含义的能力有多强。