我不是一个统计学家,但必须处理相当数量的数据。在大多数情况下,这些数据集来自在线调查;因此我有一个MySQL数据库,并知道如何从中获取一些结果。
然而,现在我得到了一个Stata文件,需要进行一些分析。在MySQL中,我知道如何做到这一点,但我卡在了Stata上,请求您的帮助。
我有一个不太小的表(大约50k行),包含以下列(还有更多列,但这些是我要处理的):
id - 对象ID,唯一值
name - 对象名称,字符串值
class - 对象类别,整数范围1-6
origin - 对象来源,整数范围1-2
在这50k行中,只有大约7k个不同的名称。在Stata中,我可以使用
现在我想要一个包含所有不同名称及其具有该名称的对象数量的列表,并且按计数排序的列表。在MySQL中,我会查询
接下来的步骤是为每个类别或两个来源获取这样的列表,即
附:我不知道stackoverflow是否是正确的地方,因为Stata并不是真正的编程语言,对吗?但我在这里找到了一些与Stata相关的问题,所以我在这里发布了它。如果有更好的地方,请指点一下。
然而,现在我得到了一个Stata文件,需要进行一些分析。在MySQL中,我知道如何做到这一点,但我卡在了Stata上,请求您的帮助。
我有一个不太小的表(大约50k行),包含以下列(还有更多列,但这些是我要处理的):
id - 对象ID,唯一值
name - 对象名称,字符串值
class - 对象类别,整数范围1-6
origin - 对象来源,整数范围1-2
在这50k行中,只有大约7k个不同的名称。在Stata中,我可以使用
list name
检索所有名称,并甚至可以使用list name if class == 2
限制为单个类别。现在我想要一个包含所有不同名称及其具有该名称的对象数量的列表,并且按计数排序的列表。在MySQL中,我会查询
SELECT name, COUNT(*) AS cnt FROM objects GROUP BY name ORDER BY cnt DESC
。但在Stata中应该如何操作呢?接下来的步骤是为每个类别或两个来源获取这样的列表,即
SELECT name, COUNT(*) AS cnt FROM objects WHERE class = 2 GROUP BY name ORDER BY cnt DESC
,在Stata中是否也可以实现?附:我不知道stackoverflow是否是正确的地方,因为Stata并不是真正的编程语言,对吗?但我在这里找到了一些与Stata相关的问题,所以我在这里发布了它。如果有更好的地方,请指点一下。