我已经阅读了一些关于非独立同分布数据的论文。根据维基百科,我知道iid(独立同分布)数据是什么,但对于non-iid仍然感到困惑。我进行了一些调查,但找不到它的清晰定义和示例。有人能帮我吗?
我已经阅读了一些关于非独立同分布数据的论文。根据维基百科,我知道iid(独立同分布)数据是什么,但对于non-iid仍然感到困惑。我进行了一些调查,但找不到它的清晰定义和示例。有人能帮我吗?
来自维基百科的iid:
"独立同分布"意味着序列中的一个元素与之前的随机变量是独立的。这样,IID序列就不同于马尔可夫序列,在马尔可夫序列中,第n个随机变量的概率分布是前一个随机变量的函数(对于一阶马尔可夫序列)。
举个简单的例子,假设你有一个有6个面的特殊骰子。如果上次面值为1,则下次投掷时,你仍有0.5的概率得到面值为1,0.1的概率得到面值为2、3、4、5或6。但是,如果上次面值不是1,则每个面的概率相等。例如,
p(face(0) = k) = 1/6, k = 1,2,3,4,5,6 -- > initial probability at time 0.
p(face(t) = 1| face(t-1) = 1) = 0.5, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 2| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 3| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 4| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 5| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
p(face(t) = 6| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6
face(t) stands for the face value of t-th throw.
这是一个例子,当第n个随机变量(第n次掷骰子的结果)的概率分布是前一个随机变量在序列中的函数时。
我在一些机器学习场景中看到了非相同和非独立(例如马尔可夫)的数据,这可以被视为非独立同分布的示例。
使用流数据进行在线学习时,当传入示例的分布随时间改变时:示例不是相同分布的。假设您有一个用于预测在线广告点击率的学习模块,用户查询术语的分布在一年内会随季节趋势而改变。夏季和圣诞季节的查询术语应该具有不同的分布。
主动学习,其中学习者请求特定数据的标签:独立性假设也被违反。
使用图形模型进行学习/推理。变量通过依赖关系连接。
3,6,7
,那么这个序列的概率等于7,6,3
和6,7,3
等。也就是说,每个值在序列中都不依赖于其他值。x
,其中每个元素x_i
要么比前一个元素大1,要么比前一个元素小1,这两种情况发生的概率均为50%。然后,可能会得到一个序列1,2,3,2,3,4,3,2
。显然,该序列有一些不同排列的概率不相等:特别地,以1,4,...
开头的序列的概率为零。如果你愿意,你可以将形式为x_i | x_i-1
的对视为iid。"iid"实际上不是真实数据的属性,而是观察者对该数据的假设。如果您将绿色答案中的每个“iid数据”和“非iid数据”的提及替换为“[...]数据的假设”,那么我完全同意他们的观点。
然而,由于问题明确要求提供非iid数据的示例,因此必须补充说不存在这样的数据,因为您可以采用任何数据并假设它是iid或non-iid。这种假设只是一种有助于限制选项以使统计建模在很多情况下更容易甚至可能的便利性。
在文献中,这一点并不很清楚,iid常常被呈现为真实世界数据的属性。尽管这是可以理解的,但仍然有些危险,因为它隐含地假定我们作为观察者可以确定有关数据源(即生成过程)的信息,而实际上我们无法做到。
当然,这仅适用于真实世界的数据。任何人都可以根据某个分布生成人工数据,从而导致iid数据。 但是,如果没有关于实际数据之外的生成过程的知识,则无法确定这一点。仅凭数据,无法判断它是否是iid或non-iid。
我知道有一些方法假设数据是非独立同分布的,并相应地尝试找到不同的分布。在许多情况下,这是有帮助的,因为数据实际上是由非平稳随机过程生成的。但是,数据只给出了样本,用于确定它是否真的是独立同分布的归纳推理总是容易出错的。非独立同分布
应该是 独立同分布
的相反,不论是 独立
还是 相同
方面。
例如,如果抛一枚硬币,让随机变量 X
表示结果为正面朝上,随机变量 Y
表示结果为反面朝上,则 X
和 Y
明显是有关联的。它们可以被彼此对决定。
至于非相同
,只要两个随机变量的分布不同,它们就可以被称为不相同。
因此,无论哪种情况发生,您都可能得到一个 非独立同分布
的例子。