用于测试目的的大样本mbox文件

7

为了开发邮件客户端,我需要一个非常大的mbox测试文件,其中包含尽可能多的电子邮件。最好是>100,000封邮件(>10GB)。

它应该是真实的邮件数据,因为我不仅想测试性能,还要测试邮件过滤器和搜索功能。

非常感谢任何提供相关内容的提示。


2
设置一个没有垃圾邮件过滤器的公开邮件服务器,地址为info@the-domain.com。将此地址注册到一些色情网站上,然后等待 :-) - Emil Vikström
请查看此OpenData页面,以获取有趣的电子邮件资源。 - philshem
3个回答

5

还有其他几个选择:

安然邮件语料库,共210 GB的电子邮件。它是多种电子邮件格式,但应该很容易阅读。

安然电子邮件数据公开发布作为FERC西部能源市场调查的一部分,由EDRM将其转换为行业标准格式。数据集包括1,227,255封电子邮件,附件493,384个,涵盖151个保管人。电子邮件以Microsoft PST、IETF MIME和EDRM XML格式提供。

Apache软件基金会公共邮件档案(200 GB)

截至2011年7月11日,所有公开可用的Apache软件基金会邮件档案的集合

此集合包含ASF 80+ 项目的所有公开可用的电子邮件档案

亚马逊链接


5
您可以使用搜索引擎收集.mbox文本文件。例如,使用谷歌搜索filetype:mbox pipermail会返回大量的.mbox数据。而使用from作为搜索字符串也是有效的。
单个.mbox文件可以进行串联:
cat mboxfile1 > mboxfile
echo >> mboxfile
cat mboxfile2 >> mboxfile

顺便说一下,不道德的不是数据本身,而是你对它的运用。请保持道德!


0
也许你可以复制自己的邮箱多次。例如,你可以使用 IMAP 或文件系统来设置邮件帐户并复制所有电子邮件多次,但这取决于你使用的数据格式。

1
我不能使用自己的邮箱进行测试,因为测试需要由其他人完成,这些人不应该阅读我的邮件... - pintpint

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接