数据挖掘中的“相似度”

Question

数据挖掘中的“相似度”

artificial-intelligencedata-miningsimilarity

9

在数据挖掘领域中，是否有一个名为“相似性”的特定子学科？如果是，它处理什么内容？任何示例、链接和参考资料都将有所帮助。

此外，作为这个领域的新手，我想知道社区对数据挖掘和人工智能之间关系的看法。它们是同义词吗？一个是另一个的子集吗？

感谢您分享您的知识。

- Shailesh Tainwala

相关：https://dev59.com/oE7Sa4cB1Zd3GeqP2lRw - Betamoo

5个回答

2

“相似性”适当的定义（提取哪些特征以及之后的处理方式）几乎就是聚类的定义，而聚类是数据挖掘的一个相当广泛的子领域。

如果您采用标准的愤世嫉俗的AI定义——我们无法解决的问题集合（确实，我们无法准确说明以开始解决的问题），那么当您寻找相关性的空间超出算法能够处理的范围时，数据挖掘就会变得模糊不清。

- Tom Womack

2

强调“相似性”概念的重要性。

数据挖掘（人工智能、机器学习、建模等）旨在将某些函数最大化或最小化。选择最佳优化/学习/挖掘算法和错误的函数会得到完全无用的结果。请注意，我们使用“值”而不是“值S”。这是因为没有（据我所知）算法（计算或其他）能够优化多个值。然而，在我们的宇宙中，复杂的优化比单维度的优化更频繁（我们想变得富有、年轻且健康）。这就是为什么存在大量相似性和其他评分函数的原因。也正因如此，其中没有一个是“正确的”。

- Boris Gorelik

1

相似性是数据挖掘任务中常用的概念，如聚类、分类等。根据您拥有的数据类型，您可以使用不同的相似度度量方法，例如文本文档的余弦相似度、欧几里得距离等。

- Phil

0

在数据挖掘中有许多相似度测量方法。对于文本挖掘，常用的余弦相似度和Jaccard相似度来寻找文本之间的相似性。

如果需要参考，可以查看Raghavan和Amnnings的信息检索书籍。

- Rashida Hasan

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Yin Zhu · Accepted Answer

在数据挖掘领域中，是否有一个名为“相似性”的特定子学科？

是的。数据挖掘和机器学习领域中存在一个特定的子领域，称为度量学习，旨在学习数据实例之间更好的距离度量。

您是否了解以下任何概念？欧几里得距离马氏距离皮尔逊相关系数余弦相似度和这里核函数

了解这些后，您就会知道什么是“相似性”。

我想知道社区对数据挖掘和人工智能的关系有何看法。

很难区分什么是数据挖掘，什么是人工智能。如果你刚进入这个领域，请不要讨论这个问题。当你学习了10种数据挖掘算法并阅读了一些人工智能书籍后，你就会知道它们之间的差异和关系。