如何确定一张图片是否涉黄

5
我正在寻找一种方法来确定图片是否具有不雅内容(是否适用于工作环境)。
我目前正在寻找能够进行此操作的API,但是到目前为止我没有成功。
其中一个我考虑过的想法是使用Google搜索API并提供一个图片URL,在启用safeSearch时查看它是否在结果中出现,但对于爬虫还未到达的图片则会失败。
另外,我正在寻找关于如何确定图片是否适用于工作环境的指针。有关形状、颜色或图案的任何建议?

6
哈哈,我可以想象收集科学训练样本有多有趣! - Jacob
5
@iliaden,不要忘记国际化。你需要一个可调的米色阈值,对于伊朗为0.1%,而荷兰为99.9%。 - Martin Beckett
1
@iliaden:开玩笑的,我知道这个已经被研究过了,谷歌搜索一下就会出现一些基于肤色和人体检测的算法。 - Jacob
4
有人建议在4chan自动发布并寻找评论中的“MOAR”,若无任何内容则为SFW,若被禁则属于CP。 - Rohan Monga
:D 呵呵,你不会考虑一下吗? - Rohan Monga
显示剩余3条评论
3个回答

1

如承诺的那样,这里提供了一份来自谷歌研究人员的SFW 论文以及一份专利,可从此博客文章中获取。


谢谢!我找到了几个“可行”的数学模型,但实现起来需要一些时间。不过还是谢谢你的建议。 - iliaden
介意发布这些模型吗?另外,由于大多数图像处理书籍都至少有一张Lena图片,所以这似乎很符合传统! :) - AruniRC

1

我的一位同事在最大的网络公司之一领导了色情分类技术的开发。我将分享他告诉我的有关过滤器开发的内容。

  1. 不同司法管辖区对什么是露骨的定义差异很大,因此在美国被认为是露骨的可能在世界其他地方并非如此,反之亦然。因此,模型需要考虑用户的来源。
  2. 纯粹基于图像的方法几乎不可能在 Web 规模上有效使用。就人类如何判断什么是露骨和什么不是而言,特征空间非常复杂,并且为图像开发适当的特征提取技术极其困难。
  3. 一些最具预测性的特征是链接到图像的页面上的文本。这些也是最容易开发的特征之一。
  4. 构建标记的训练集非常困难,因为每天对色情和其他露骨内容进行分类会对标注者产生影响。因此,流动率相当高,几乎没有人能坚持一年。
  5. 从分类器中获得高准确度仍然非常困难。他们与几位博士和经验丰富的团队一起努力,仍然没有达到您可能期望的准确度。
如果你的问题空间更为受限,那么你可能可以达到更高的准确度。如果你只使用图像特征,算法或模型很可能泛化能力不佳,并且会有较高的误报率。祝你好运!

我目前正在实现一种基于最近两年有关照片中皮肤检测的出版物的图像扫描仪,并尝试根据图像中的皮肤布局对“明确性”进行分类。目标仍然是制作一个单一的、不一定可扩展的图像扫描仪,只需要将图像作为输入。我假设我没有任何链接到找到它的网页。更糟糕的是,想象一下这个网页是imgur.com——几乎不可能从托管网站获取任何相关数据。 - iliaden

0

参考文献:

色情数字图像的检测 Jorge A. Marcial-Basilio, Gualberto Aguilar-Torres, Gabriel Sánchez-Pérez, L. Karina Toscano- Medina和Héctor M. Pérez-Meana

使用支持向量机进行色情检测 林语君,曾宏伟,傅秋山

基于图像的色情检测 Rigan Ap-apid 德拉萨尔大学,马尼拉,菲律宾

您还可以从现有的实现中获取一些提示,例如:

“Porn Detection Stick使用先进的图像分析算法,通过识别面部特征、肉色调、图像背景、身体部位形状等将图像分类为潜在有害的图像。”


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接