与“分割”和“场景标记”相比，“语义分割”是什么？

Question

与“分割”和“场景标记”相比，“语义分割”是什么？

image-processingcomputer-visionobject-detectionimage-segmentationsemantic-segmentation

105

语义分割只是一种多余修辞吗？还是“语义分割”和“分割”之间存在差异？与“场景标记”或“场景解析”有什么区别？

像素级分割和像素分割有什么区别？

（附带问题：当您拥有这种像素级注释时，是否可以免费获得对象检测，还是仍然需要做些什么？）

请提供定义的来源。

使用“语义分割”的来源：

Jonathan Long，Evan Shelhamer，Trevor Darrell：全卷积网络用于语义分割。CVPR，2015年和PAMI，2016年

Hong，Seunghoon，Hyeonwoo Noh和Bohyung Han：“半监督语义分割的解耦深度神经网络。”arXiv预印本arXiv:1506.04924，2015年。

V. Lempitsky，A. Vedaldi和A. Zisserman：用于语义分割的桩模型。在进展中神经信息处理系统，2011年。

使用“场景标记”的来源：

Clement Farabet，Camille Couprie，Laurent Najman，Yann LeCun：学习分层特征进行场景标记。在模式分析和机器智能方面，2013年。

使用“像素级”的来源：

Pinheiro, Pedro O.与Ronan Collobert：“使用卷积网络从图像级别到像素级别的标注。” 《IEEE计算机视觉和模式识别会议论文集》，2015年。（参见http://arxiv.org/abs/1411.6228）

使用“像素级”一词的来源

Li, Hongsheng、Rui Zhao和Xiaogang Wang：“用于像素级分类的卷积神经网络的高效前向和后向传播。”arXiv预印本arXiv:1412.4526，2014年。

Google Ngrams

最近似乎比“场景标记”更常用“语义分割”一词。

- Martin Thoma

其他看起来非常相似的术语：（每个）像素分类/标记 - Martin Thoma

12

@MartinThoma在提问后近6个月发布了一篇关于语义分割的arXiv预印本综述，这真的很有趣。干得好！ - Mohamed Hasan

3个回答

67

我阅读了许多关于目标检测、目标识别、物体分割、图像分割以及语义图像分割的论文，以下是我的结论，可能不完全正确：

目标识别：在给定的图像中，您必须检测出所有目标（取决于数据集的限制类别），用边界框定位它们，并将该边界框打上标签。下面的图像是最新的目标识别技术的简单输出。

object recognition

目标检测：它类似于目标识别，但在此任务中，您只有两个对象分类的类，即对象边界框和非对象边界框。例如汽车检测：您必须在给定的图像中检测出所有汽车并确定它们的边界框。

Object Detection

物体分割：与目标识别类似，您将识别图像中的所有对象，但您的输出应该显示这些对象分类为图像的像素。

object segmentation

图像分割：在图像分割中，您将分割图像的区域。您的输出不会标记段落，与彼此一致的图像区域应该在同一段中。从图像中提取超像素是这个任务的一个例子，或者前景-背景分割。

image segmentation

语义分割：在语义分割中，您必须使用对象类（汽车、人、狗等）和非对象类（水、天空、道路等）标记每个像素。换句话说，在语义分割中，您将标记图像的每个区域。

semantic segmenation

我认为像素级别和像素分割基本上是相同的，可以是图像分割或语义分割。我也在这个链接中回答了你的问题，并给出了相同的答案。

- e3oroush

8

我还会添加实例分割，即对同一对象实例之间的分隔。 - Alex

1

我认为，“图像识别”更应该被视为“图像分类”的同义词，而不是“图像检测”。它的意思是在图像中识别一个或多个对象，并能够判断其是否存在。如果我们还想知道它在哪里，我们需要使用边界框来检测对象。此外，我不认为物体检测器只能检测单一类别的原因。 - pietz

我在某种程度上同意你的观点。我没有提到图像识别是什么，所以图像识别和分类可能意味着相同的事情。然而，目标检测主要用于两类问题，而目标识别用于多类问题。无论如何，我的回答并没有保证，只是我三年前阅读一些论文时的想法！干杯！ - e3oroush

你能详细说明一下你从哪些地方获取阅读材料吗？ - qarthandso

38

前面的回答非常好，我想再指出一些补充: 目标分割 这种方法已经不太受研究界欢迎的一个原因是它存在模糊性。目标分割曾经只是指在图像中找到单个或少量目标并在其周围绘制边界，对于大多数情况仍可以这么认为。然而，它也开始被用来指可能是目标的斑块的分割，以及从背景中分割出目标（现在更常称为背景减除、背景分割或前景检测），甚至在某些情况下与使用边界框进行目标识别交替使用（随着深度神经网络方法在目标识别中的应用，这种情况很快就停止了，但在此之前，目标识别也可以简单地将整个图像标记为其中包含的对象）。 什么使“分割”成为“语义”？ Simply put, 每个部分，或者在深度方法中每个像素，都会根据类别被赋予一个类标签。一般来说，分割只是按照某些规则将图像分成不同的部分。例如，Meanshift 分割从高层次上将数据根据图像能量的变化进行划分。基于Graph cut 的分割同样不是通过学习得到的，而是直接从与其他部分分离的每个图像属性中推导出来的。更近期（基于神经网络的）方法使用已标记的像素来学习识别与特定类别相关的局部特征，然后根据具有该像素最高置信度的类别对每个像素进行分类。因此，“像素标记”实际上是这项任务的更真实名称，“分割”组件是 emergent 的。 实例分割

可以说，目标分割中最困难、最相关和最原创的含义是“实例分割”，它意味着在场景中分割出各个个体对象，无论它们是否属于同一类型。然而，这种分割如此困难的原因之一是从视觉角度（以及某种程度上的哲学角度）来看，“对象”实例的定义并不完全清晰。身体部位算不算对象？这些“部分对象”是否应该被实例分割算法分割？只有当它们与整体分离时才应该被分割吗？复合对象怎么办？两个明显相连但可分离的东西应该算一个对象还是两个对象（除非经过适当制作，否则粘在木棒顶端的石头是斧头、锤子还是仅仅是木棒和石头？）。此外，区分实例也不清楚。一个墙上的门和其他墙是不是单独的实例？实例应该按什么顺序计数？按照它们的出现顺序？接近视点的距离？尽管存在这些困难，对象的分割仍然是一个重要的问题，因为作为人类，我们经常与对象互动，无论它们的“类别标签”是什么（使用身边的随机物品作为纸张重物，坐在不是椅子的东西上），因此一些数据集尝试解决这个问题，但主要原因是这个问题定义得还不够清晰，所以并没有给予它足够的关注。

场景解析/场景标注

场景解析是一种严格的场景标注分割方法，但它也存在一些模糊问题。历史上，场景标注意味着将整个“场景”（图像）分成多个部分并为它们赋予一个类别标签。然而，它也被用来表示为图像区域分配类别标签，而不需要明确地对它们进行分割。在分割方面，“语义分割”并不意味着将整个场景划分。对于语义分割，算法旨在仅对其已知的对象进行分割，并且会因为标记没有任何标签的像素而受到损失函数的惩罚。例如，MS-COCO数据集是用于语义分割的数据集，其中仅对某些对象进行了分割。

- physincubus

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Shai · Accepted Answer

"分割"是将图像分成几个"连贯"部分的过程，但没有试图理解这些部分代表什么。其中最著名的作品之一（但绝不是第一个）是Shi和Malik的"Normalized Cuts and Image Segmentation" PAMI 2000。这些作品试图从颜色、纹理和边界的平滑度等低级线索方面来定义"连贯性"。你可以追溯到格式塔心理学。

另一方面，“语义分割”试图将图像划分为具有语义意义的部分，并将每个部分分类为预定类别中的一个。您也可以通过对每个像素进行分类（而不是整个图像/段落）来实现相同的目标。在这种情况下，您正在进行像素级分类，这会导致相同的最终结果，但路径略有不同...

因此，可以说，“语义分割”，“场景标记”和“像素分类”基本上都试图实现同一个目标：在图像中语义地理解每个像素的作用。你可以采用许多方法来达到这个目标，这些方法会导致术语上的细微差别。