非独立同分布数据的例子

21

我已经阅读了一些关于非独立同分布数据的论文。根据维基百科,我知道iid(独立同分布)数据是什么,但对于non-iid仍然感到困惑。我进行了一些调查,但找不到它的清晰定义和示例。有人能帮我吗?

5个回答

19

来自维基百科的iid:

"独立同分布"意味着序列中的一个元素与之前的随机变量是独立的。这样,IID序列就不同于马尔可夫序列,在马尔可夫序列中,第n个随机变量的概率分布是前一个随机变量的函数(对于一阶马尔可夫序列)。

举个简单的例子,假设你有一个有6个面的特殊骰子。如果上次面值为1,则下次投掷时,你仍有0.5的概率得到面值为1,0.1的概率得到面值为2、3、4、5或6。但是,如果上次面值不是1,则每个面的概率相等。例如,

p(face(0) = k) = 1/6, k = 1,2,3,4,5,6  -- > initial probability at time 0. 
p(face(t) = 1| face(t-1) = 1) = 0.5, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 2| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 3| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 4| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 5| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 6| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
face(t) stands for the face value of t-th throw.

这是一个例子,当第n个随机变量(第n次掷骰子的结果)的概率分布是前一个随机变量在序列中的函数时。

我在一些机器学习场景中看到了非相同和非独立(例如马尔可夫)的数据,这可以被视为非独立同分布的示例。

  • 使用流数据进行在线学习时,当传入示例的分布随时间改变时:示例不是相同分布的。假设您有一个用于预测在线广告点击率的学习模块,用户查询术语的分布在一年内会随季节趋势而改变。夏季和圣诞季节的查询术语应该具有不同的分布。

  • 主动学习,其中学习者请求特定数据的标签:独立性假设也被违反。

  • 使用图形模型进行学习/推理。变量通过依赖关系连接。


4
以一种非常抽象的方式来解释iid(独立同分布),如果你已经了解了技术定义,那么iid的意思是:如果你有一堆值,那么这些值的所有排列组合都具有相等的概率。因此,如果我有3,6,7,那么这个序列的概率等于7,6,36,7,3等。也就是说,每个值在序列中都不依赖于其他值。
作为反例,想象一下序列x,其中每个元素x_i要么比前一个元素大1,要么比前一个元素小1,这两种情况发生的概率均为50%。然后,可能会得到一个序列1,2,3,2,3,4,3,2。显然,该序列有一些不同排列的概率不相等:特别地,以1,4,...开头的序列的概率为零。如果你愿意,你可以将形式为x_i | x_i-1的对视为iid。

1
这是一个不独立的问题示例。问题定义如下:假设您有一张二维图像,并在其中有一个斑点。您想要构建一个补丁分类器,以5X5图像补丁作为输入,并将中心像素分类为“边界”或“非边界”。您的要求是每个补丁的结果分类都定义了一个连续轮廓(一像素厚度),准确地追踪斑点的边界。本质上,这是一个边缘检测器。还假设仅略微错误地移动边界几个像素并不重要,但轮廓的连续性很重要(它不应该有任何断点)。
为什么这不是独立的: 示例1:假设您有一个良好的解决方案轮廓A。另一个有效的解决方案B,只是将A向右移动2个像素,注意大多数像素级分类都不同,但解决方案仍然有效。 示例2:假设您得到有效的解决方案A,只有一个输出像素向右移动2个像素,以创建输出C。这次您有一个破碎的轮廓,解决方案无效。这说明分类器需要知道其他附近像素示例的答案,以确定特定像素是否应分类为边界或非边界。

0

"iid"实际上不是真实数据的属性,而是观察者对该数据的假设。如果您将绿色答案中的每个“iid数据”和“非iid数据”的提及替换为“[...]数据的假设”,那么我完全同意他们的观点。

然而,由于问题明确要求提供非iid数据的示例,因此必须补充说不存在这样的数据,因为您可以采用任何数据并假设它是iid或non-iid。这种假设只是一种有助于限制选项以使统计建模在很多情况下更容易甚至可能的便利性。

在文献中,这一点并不很清楚,iid常常被呈现为真实世界数据的属性。尽管这是可以理解的,但仍然有些危险,因为它隐含地假定我们作为观察者可以确定有关数据源(即生成过程)的信息,而实际上我们无法做到。

当然,这仅适用于真实世界的数据。任何人都可以根据某个分布生成人工数据,从而导致iid数据。 但是,如果没有关于实际数据之外的生成过程的知识,则无法确定这一点。仅凭数据,无法判断它是否是iid或non-iid。

我知道有一些方法假设数据是非独立同分布的,并相应地尝试找到不同的分布。在许多情况下,这是有帮助的,因为数据实际上是由非平稳随机过程生成的。但是,数据只给出了样本,用于确定它是否真的是独立同分布的归纳推理总是容易出错的。

0
字面上,非独立同分布 应该是 独立同分布 的相反,不论是 独立 还是 相同方面。

例如,如果抛一枚硬币,让随机变量 X 表示结果为正面朝上,随机变量 Y 表示结果为反面朝上,则 XY 明显是有关联的。它们可以被彼此对决定。

至于非相同,只要两个随机变量的分布不同,它们就可以被称为不相同。

因此,无论哪种情况发生,您都可能得到一个 非独立同分布 的例子。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接