NLP: 构建(小型)语料库,或者“在哪里获取大量不太专业的英文文本文件?”

5
有人知道哪里可以找到日常英语文本的档案或收藏品,用于小型语料库吗?我一直在使用古登堡计划书籍作为工作原型,并希望融入更多现代语言。这里的一个最新答案间接地指向了一个很棒的usenet电影评论档案,这个想法没有出现在我的脑海中,非常好。对于这个特定的程序,技术usenet档案或编程邮件列表会倾斜结果并且很难分析,但是任何一种通用博客文本、聊天记录或其他可能对他人有用的东西都将非常有帮助。此外,一个部分或可下载的研究语料库,标记不要太多,或者一些启发式方法来找到适当的维基百科文章子集,或任何其他想法,都非常感激。(顺便说一句,我正在遵守下载方面的规定,使用故意缓慢的脚本,不会对托管此类材料的服务器造成负担,以防您认为有道德风险指向某些庞大的东西给我。) 更新:用户S0rin指出,维基百科要求不进行爬取,并提供此导出工具。 古腾堡计划在此处指定了一个政策,底线是尽量不进行爬取,但如果需要:“将您的机器人配置为在请求之间等待至少2秒钟。”

更新2 维基百科转储是最好的方法,感谢回答者指出了它们。 我最终使用了来自此处的英文版本:http://download.wikimedia.org/enwiki/20090306/,以及大小约为一半的西班牙语转储。 它们需要清理一些工作,但非常值得,而且包含许多有用的链接数据。
7个回答

8
  • 使用维基百科转储
    • 需要大量清理
  • 查看nltk-data是否有帮助
    • 语料库通常很小
  • Wacky人员提供了一些免费的语料库
    • 标记
    • 您可以使用他们的工具包爬取自己的语料库
  • Europarl是免费的,几乎是每个学术MT系统的基础
    • 口语,翻译
  • 路透社语料库是免费的,但只能在CD上获得

您总是可以获得自己的语料库,但请注意:HTML页面通常需要大量清理,因此请限制自己使用RSS提要。

如果您以商业方式进行此操作,则LDC可能是一个可行的选择。


此外,4000万个单词是理想的大小,并且到目前为止我一直在使用的欧洲议会数据非常完美。 - unmounted
如果使用CDATA,RSS订阅源可能也不太干净,因为它允许将HTML嵌入到订阅源中。 - VirtuosiMedia

4
Wikipedia听起来是个不错的选择。有一个实验性的Wikipedia API可能会有用,但我不知道它如何工作。到目前为止,我只使用自定义爬虫或甚至wget来爬取维基百科。
然后,您可以搜索提供其完整文章文本的页面的RSS源。RSS,因为没有HTML标记会妨碍您。
爬取邮件列表和/或Usenet有几个缺点:您将获得AOLbonics和Techspeak,并且这将使您的语料库倾斜。
经典的语料库是Penn Treebank和British National Corpus,但它们需要付费。您可以阅读Corpora list archives,甚至询问他们。也许您可以使用Web as Corpus工具找到有用的数据。
我实际上正在进行一个小型的构建项目,可以在任意网页上进行语言处理。它应该在接下来的几周内准备好使用,但目前并不是一个真正的抓取器。但我可以为它编写一个模块,我想,因为功能已经存在。

只是一个提醒,维基百科要求人们不要使用网络爬虫来查看页面,请参阅:http://en.wikipedia.org/wiki/Wikipedia_database#Please_do_not_use_a_web_crawler他们通过“导出”页面提供运行时访问,请参阅:http://en.wikipedia.org/wiki/Special:Export - user63899

1

如果你愿意花钱,你应该查看语言数据联盟提供的数据,例如宾州树库。


1

维基百科似乎是最好的方法。是的,你需要解析输出。但由于维基百科的分类,你可以轻松地获取不同类型的文章和单词。例如,通过解析所有科学类别,你可以获得大量的科学词汇。关于地点的详细信息将偏向于地理名称等。


我几周前在维基百科上发现了一个很棒的数据集,我会更新答案。维基媒体基金会提供了一些令人难以置信的资源。 - unmounted

0

0

您已经涵盖了显而易见的领域。我能想到的补充领域有:

1)新闻文章/博客。

2)杂志在网上发布了大量免费资料,您可以获得很好的主题横截面。


0

浏览维基百科数据时,我注意到他们对电视和电影剧本的一些分析。我认为这可能是有趣的文本,但不容易获取——事实证明它无处不在,并且结构化和可预测性足以使其清理。这个网站,标题为“一个地方收集了许多电影剧本”,可能对任何遇到类似问题的人都很有用。


电视和电影剧本的一个问题是它们会被版权保护。因此,你必须小心版权问题。 - Amandasaurus

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接