相关词接近度

5

假设我有一个大约1小时的对话文本记录。我想知道哪些单词彼此靠近。为了确定哪些单词聚集在一起,以及它们之间的距离有多近,我需要使用什么类型的统计技术?

我怀疑这是一种聚类分析或PCA。

1个回答

4
为了确定词语的接近程度,您需要建立一个图:
1. 每个单词都是一个顶点(或“节点”), 2. 左右单词是边。
所以,“我喜欢狗”有两条边和三个顶点。
下一步将基于这个模型决定“接近”的定义,这就是统计学发挥作用的地方。
为了确定相关的单词组,可以采取以下方法:
1. MCL聚类 - 这将为您提供多个聚类,其算法具有高概率一起被看到。
2. K MEANS聚类 - 这将给您“k”组词。
3. 阈值法 - 这是最可靠和直观的方法。将您理解的小数据子集的所有关系绘制出来(例如,您阅读过的新闻剪辑或文章的段落),并运行您的方法生成一个图,使用诸如graphviz或cytoscape之类的工具可视化该图。一旦您能够看到相关性,您可以计算不同单词之间通常发现的边缘数量,这些单词明显聚集在一起。例如,您可能会发现两个聚在一起的单词每5个实例有一条边缘。将此用作截止线,并编写自己的图形分析脚本,它输出在顶点图中每5个实例至少有1条边缘的单词对。
评估3的ROC曲线。您可以逐渐将此截止值调高,直到只剩下很少的“聚类”。然后,如果使用一个已知预期结果的段落(由已经知道应报告为相关的单词的人创建),运行算法,您可以使用接收者操作特征来评估算法的精度,该特征将相关单词的输出与预先计算的标准进行比较。

我鼓励对这篇文章进行编辑……有一些错别字。 - jayunit100

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接