有免费的语料库可以使用吗?

25

有没有任何地方可以免费或少于100美元下载英语短语的树库?我需要包含大量句法分析句子(> 1000)的训练数据,格式不限。基本上,我所需的只是这些句子中被识别为词性的单词。


1
NLTK不包含Penn Treebank的一个相当大的子集吗? - Hans Then
7
@on-hold: 实际上,这是一个非常有用的问题,回答也非常有用,因为这些资源相对较少。请注意,这不是一个“A比B更好”的问题,而是一个“列出所有在条件Y下类型为X的资源”的问题。 - rec
3
LDC收费数据集,太荒谬了...不管怎样,详见https://en.wikipedia.org/wiki/Treebank#Syntactic_treebanks。 - Franck Dernoncourt
3个回答

24

16

NLTK 是 Python 中的一个工具,免费提供了多个树库


谢谢,+1。我不熟悉Python,请告诉我如何解析这些*.pickle文件?是否有任何转换器可以将其转换为更用户友好的格式,例如XML或纯文本? - YMC
2
什么是pickle文件?Treebanks以文本格式存储。例如,http://nltk.googlecode.com/svn/trunk/nltk_data/packages/corpora/treebank.zip。 - cyborg
5
19种语言免费翻译,网址:http://universaldependencies.github.io/docs/ - CpILL
印地语和乌尔都依赖树库:http://ltrc.iiit.ac.in/treebank_H2014/ - Saurav--

-1

1
在LDC购买此产品需要3150美元:http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC99T42 - YMC
7
它包含在OntoNotes 4.0中,与许多其他树库一起。OntoNotes 4.0是免费的(尽管您需要支付分发费用)。请访问http://www.ldc.upenn.edu/Catalog/catalogEntry.jsp?catalogId=LDC2011T03。 - Jeff Kaufman
你如何计算分布成本? - CpILL
2
@CpILL 你需要在网站上注册。有些自然语言处理研究人员不免费分享数据集,这真是太可惜了。LDC的数据集可以非常昂贵。更糟糕的是,纳税人资助了这种废话。 - Franck Dernoncourt
@JeffKaufman 这太荒谬了,无法下载。30美元运费寄送一张DVD... - Franck Dernoncourt

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接