我想知道是否有任何开源项目(最好用Python编写),可以用来下载(爬取?)像Lucene/Hadoop这样的开源项目的邮件列表档案,例如http://mail-archives.apache.org/mod_mbox/lucene-java-user/。我特别寻找一个专门用于(Apache)邮件列表存档的爬虫/下载器(而不是像Scrappy这样的通用爬虫)。非常感谢任何指导。
谢谢。
import mailbox
mails = mailbox.mbox(filename.mbox)
for message in mails: print message['subject']