Gmail垃圾邮件过滤器是如何工作的?

4
我总是惊讶于Gmail的高品质垃圾邮件过滤器。在过去的一年里,它过滤了99.95%的垃圾邮件,并且只错误地阻止了一封邮件。相比之下,我使用的其他任何邮件服务每50封邮件中至少会出现一次错误。
那么,在内部,Gmail如何达到这种质量水平呢?它是基于客户反馈(即如果N个客户将邮件标记为垃圾邮件,则对其他客户进行垃圾邮件排序)?还是有一些技巧?也许一个基本的过滤算法过滤掉最明显的垃圾邮件,而一些困难的情况则由真正的人类进行分析?

4
哈哈哈,太有趣了。问我们谷歌专有的商业机密算法是如何工作的,为什么不直接问他们呢? - S.Lott
5个回答

8
简单来说,这是基于社区反馈的。以下是官方解释的引用:
“Gmail用户在防止垃圾邮件进入数百万收件箱中发挥着重要作用。当Gmail社区通过点击将某个电子邮件报告为垃圾邮件时,我们的系统会迅速学习开始阻止类似的消息。社区标记的垃圾邮件越多,我们的系统就变得越聪明。”
您可以在他们的垃圾邮件解释页面上了解更多信息。

7

这是一个价值百万美元的问题,如果能在stackOverflow上回答这个问题,那么每个人的垃圾邮件过滤器都将变得非常有效。


这并不是那么明显。就像我说的,也许谷歌雇用人类来过滤难处理的情况,或者该过滤器基于用户反馈。在这种情况下,是的,任何可能雇用人员来处理此类事情或依赖如此庞大的社区的人都能够制作出有效的垃圾邮件过滤器。 - Arseni Mourzenko
不会,因为他们的垃圾邮件过滤器高质量是由于他们拥有大量数据。请参阅彼得·诺维格的演讲《数据的非合理有效性》。 - Wes

2

我不太清楚谷歌如何进行垃圾邮件过滤(但我认为这毕竟是商业机密)。如果你对垃圾邮件过滤的工作原理感兴趣,我建议看看贝叶斯垃圾邮件过滤(http://en.wikipedia.org/wiki/Bayesian_spam_filtering)。这是一种相当容易理解的方法。


0

谷歌很可能正在使用分类器系统,例如逻辑回归或神经网络。最先进的垃圾邮件检测经常采用这些机器学习算法。

输出分类为“垃圾邮件”或“非垃圾邮件”,而输入则是谷歌的机密,但我确信某些电子邮件文本短语,如“立即购买”,“特价销售”,“伟哥”或“男性增强”都是他们模型中的因素。


0

目前还没有官方公布的版本,大多数建议都只是一些观察和专家意见。

基于我们发送电子邮件的观察结果,这里是我的发现:

1. 用户参与度是关键:如果用户不参与你的电子邮件,那么你的电子邮件很可能会被标记为垃圾邮件。 以下是一些指标: - 你向谁发送电子邮件,以及你发送电子邮件的频率 - 你打开哪些电子邮件 - 你回复哪些电子邮件 - 你通常阅读的电子邮件中有哪些关键词 - 你将哪些电子邮件标记为星标、归档或删除

2. 发件人域名信誉:发件域名的过去历史如何?如果以前的用户参与度较高,则同一域名的新电子邮件落入收件箱的概率就很高。

谷歌正在使用复杂的AI和机器学习算法来实现这一点。虽然您可能通过更改IP、域名或回复路径来取得一些成功,但所有这些都将是短期的技巧。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接