Python最好的下载邮件列表归档的开源项目

4
我想知道是否有任何开源项目(最好用Python编写),可以用来下载(爬取?)像Lucene/Hadoop这样的开源项目的邮件列表档案,例如http://mail-archives.apache.org/mod_mbox/lucene-java-user/。我特别寻找一个专门用于(Apache)邮件列表存档的爬虫/下载器(而不是像Scrappy这样的通用爬虫)。非常感谢任何指导。 谢谢。
1个回答

10
通常会提供下载mbox文件的工具。在您提供的链接中,例如,您可以添加mbox名称并直接获取邮件存档。例如,2012年10月的mbox文件如下所示: http://mail-archives.apache.org/mod_mbox/lucene-java-user/201210.mbox 因此,以编程方式获取档案非常简单。一旦您拥有它们:
import mailbox
mails = mailbox.mbox(filename.mbox)
for message in mails: print message['subject']

谢谢@JosefAssad。哪个键保存了消息的'content'?我找不到一个关于content的键。然而,as_string()会打印所有内容,我想知道是否有一个只包含content的键。 - prashu
1
我可以热情地推荐Python文档。具体而言,您需要访问http://docs.python.org/library/email.message.html#email.message.Message。在该模块的术语中,正文称为有效载荷。请查看函数`get_payload`。 - JosefAssad
谢谢这个术语。我不知道body被称为“payload”。 - prashu

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接