我想在几周内从Twitter收集数据。
为此,我使用RStudio Server和crontab自动运行类似以下的几个脚本:
require(ROAuth)
require(twitteR)
require(plyr)
load("twitter_authentication.Rdata")
registerTwitterOAuth(cred)
searchResults <- searchTwitter("#hashtag", n=15000, since = as.character(Sys.Date()-1), until = as.character(Sys.Date()))
head(searchResults)
tweetsDf = ldply(searchResults, function(t) t$toDataFrame())
write.csv(tweetsDf, file = paste("tweets_test_", Sys.Date() - 1, ".csv", sep = ""))
在某些日子里,每个标签只有几条推文(最多100条),因此脚本可以顺利运行。但是,在其他一些日子里,会有成千上万条某个标签的推文(当然,我不使用“hashtag”这个术语,而是我研究所需的术语)。
我可以在“searchTwitter”中添加“retryOnRateLimit=10”。但是,当我每天搜索多个标签时,如何在crontab中计时这些查询呢?
为了组织这些查询,我需要知道在15分钟的时间间隔内运行脚本一次能够收集多少推文!有人知道答案吗? (根据Twitter API的速率限制,我可以进行180个查询每15分钟窗口,但这是多少推文呢?)