我正在寻找Twitter或其他社交网络网站的数据集,用于我的项目。我目前有CAW 2.0 Twitter数据集,但它只包含用户的推文。我需要一个能够显示朋友数、关注者等信息的数据。
它不一定是Twitter,但我更喜欢Twitter或Facebook。我已经尝试了Infochimps,但显然Twitter的文件已不能下载。
有人能提供好的网站来寻找这种数据集吗?我将把数据集输入Hadoop中。
请尝试以下三个数据集:
包含约9700万条推文:
注:由于Twitter的要求,上述链接已不再提供。
包含4700万用户的用户图:
http://an.kaist.ac.kr/traces/WWW2010.html
以下数据集既包含网络也包含推文,但数据是通过雪球取样之类的方式收集的,因此朋友网络不是均匀的。它包含约1000万条推文,您可以向研究人员发送电子邮件以获取更多数据。
http://www.public.asu.edu/~mdechoud/datasets.html
请注意数据的许可证。
希望这能有所帮助, 同时,您能告诉我打算用这个数据集做什么工作吗? 我有一些用于数据集的Hadoop / Pig脚本。
加州大学欧文分校的研究人员收集了Facebook社交图谱、应用程序安装和Last.fm用户、事件、群组等相关数据:http://odysseas.calit2.uci.edu/research/