目前最好的垃圾邮件过滤算法是什么?

6

目前最好的检测垃圾邮件的方法是什么?特别是在移动短信上。是否有任何资源或比较分析?


3
你是从程序员还是用户的角度来询问?也就是说,你想要实现一种垃圾邮件检测算法,还是想要在自己的电子邮件中检测垃圾邮件? - moinudin
我从程序员或研究人员的角度提问。我正在尝试实现一个垃圾邮件过滤器,但目前对算法了解不足。 - ahmy
4个回答

10

建议研究监督学习技术。有许多研究表明,多项式朴素贝叶斯分类器在垃圾邮件过滤方面取得了很大的成功。如果它对于垃圾邮件过滤有效,那么它应该也适用于短信过滤。您需要一个包含大量示例垃圾短信文本的数据集,并使用之来训练分类器。

此外,值得研究支持向量机,虽然在垃圾邮件过滤中使用较少,但是其是一种更强大的技术。

仅依靠原始文本进行算法训练可能不是最佳方法。1998年Mehran Sahami的一项研究发现,在考虑其他启发式因素(例如,邮件是否发送到邮件列表?邮件是否来自以“.edu”、“.com”或“.org”结尾的域名?邮件中是否包含多个标点符号(“!!!”)等)时,他们取得了更好的表现。

但首先从多项式朴素贝叶斯分类器开始。它非常简单易实现,易于使用,并且根据个人经验:训练时间非常短。


4
据我了解,现代大多数垃圾邮件过滤是贝叶斯定理的实现与一些启发式算法的结合,例如发件人黑名单、标准合规性和发送模式。

在移动电话网络中,最容易实现这种过滤的地方可能是短信消息中心,因为它的通信量较高,这使得很多启发式算法更容易实现。


0

使用各种算法和启发式方法(而不是“最佳”方法)是保护您的网络和用户免受垃圾邮件、欺诈、恶意内容、网络欺凌、身份盗窃、病毒等方面的良好方法。

Cloudmark及其各种合作伙伴和竞争对手是开始寻找的好地方。


-1

为什么需要事后检测垃圾邮件,预防它在萌芽时期再次出现。

更新:
黑帽SEO/SEM和犯罪分子广泛使用过滤器来列入竞争对手的黑名单/垃圾邮件。
此外,它们是事后反应的,因此注定会落后于垃圾邮件技术的发展。


因为我正在开发移动设备应用程序客户端。 - ahmy

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接