社交网络查询的幂律曲线拟合

Question

3

Twitter最近宣布，你可以通过输入某个Twitter用户的关注者数量到下面的公式中，来近似计算该用户的排名：

exp($a + $b * log(follower_count))

其中$a=21，$b=-1.1

这显然比按照给定用户的关注者数量对整个用户列表进行排序要高效得多。

如果你从另一个社交网站获得了类似的数据集，你该如何推导出适合该数据集的$a和$b值？基本上是某些频率列表的分布被假定为幂律。

- ʞɔıu

请注意，这不是“对数正态”所指的意思... - Oliver Charlesworth

对数/对数比例尺上的线性是我真正想表达的意思。 - ʞɔıu

2个回答

1

您可以使用名为“Solver”的 Microsoft Excel 插件。它已包含在 Excel 中，但不一定默认安装。请在您的 Excel 版本中查找“插件”和“solver”，并加载它。

安装插件后，请执行以下操作：

- luiscolorado

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Oliver Charlesworth · Accepted Answer

6

你有以下模型：

y = exp(a + b.log(x))

这相当于：

log(y) = a + b.log(x)

因此，如果您对数据集进行对数处理，则会得到一个线性模型，因此您可以使用线性回归来确定最佳拟合值a和b。

然而，这一切对我来说都听起来毫无意义。谁能说某个社交网络站点使用这种关系来确定用户排名呢？

- Oliver Charlesworth

+1，他们不这样做，Twitter也从未表示过他们这样做。这只是通过关注者数量来近似您的排名，而不是真正的“排名”。 - Kirk Broadhurst

@Kirk：的确，我最初误解了OP所说的“排名”的意思。我想反问的问题是：谁能说出给定社交网站的分布遵循这种关系呢？ - Oliver Charlesworth

抱歉，我误解了你的意思！我猜想这假设分布是对数正态或遵循“幂律”，这可能是一个相当合理但完全不可靠的假设。 - Kirk Broadhurst

这是关于我下面的答案。我知道这不是最优雅的解决方案，但它非常实用。主要优点是Excel也允许您使用不同的算法来改善Excel求解器插件中的拟合。顺便说一下，如果您的数据集太大，可以通过对数据进行随机抽样来减少它。 - luiscolorado