我需要一个解析器,可以扫描学术文本,提取引用,并将这些引用解析为其组成部分(作者、标题、出版日期等)。
我尝试了Paracite,但它运行速度非常慢,并且不能产生高质量的结果。
任何编程语言都可以,但Java是首选。
我尝试了Paracite,但它运行速度非常慢,并且不能产生高质量的结果。
任何编程语言都可以,但Java是首选。
ParsCit
:这里有一些项目列表: https://forums.zotero.org/discussion/1211/
Cb2bib使用正则表达式 http://www.molspaces.com/cb2bib/
Citeseer使用一个作者姓名和题目的大列表。您可以查看他们的出版物列表
这是一个Python项目: https://code.google.com/p/pdfssa4met/
还可以参考这些stackoverflow问题: * 从研究论文的PDF中提取信息