许多人需要处理用户输入、搜索查询以及可能包含脏话或不良语言的情况。通常需要对此进行过滤。
在哪里可以找到各种语言和方言的好的脏话列表?
是否有可用于包含良好列表的源的API?或者是一个API,只需简单地说“是干净的”还是“是肮脏的”,并带有一些参数?
有哪些捕捉试图欺骗系统的人的好方法,例如 a$$、azz 或 a55 之类的词汇?
如果您提供PHP的解决方案,则可以获得额外的奖励分。 :)
编辑:回答那些简单避免编程问题的答案:
我认为这种过滤器有其作用,例如当用户可以使用公共图像搜索来查找添加到敏感社区池中的图片时。如果他们可以搜索“阴茎”,那么他们很可能会得到许多图片,是的。如果我们不想要这样的图片,那么防止该词作为搜索词是一个好的看门人,尽管这并非绝对可靠的方法。首先获取单词列表才是真正的问题。
因此,我真正指的是找出单个标记是否肮脏,然后只需禁止它即可。我不会防止像“长颈鹿”这样的完全搞笑的情绪参考。在那里你无能为力。 :)