mydata %>%
unnest_tokens(word, text, token ="tweets") %>%
anti_join(stop_words, by= "word")
我在R中尝试使用其他方法来处理大数据,例如:
https://rviews.rstudio.com/2019/07/17/3-big-data-strategies-for-r/ 或者 https://spark.rstudio.com/guides/textmining/ 以及 Spark 库:https://spark.rstudio.com/guides/textmining/。但是对我都没有很好的效果。
在Spark中,我按照以下步骤进行,但是 RStudio 无法将我的数据集复制到Spark。即使一个多天,我仍然可以在RStudio中看到 "Spark is Running",但数据并未成功复制到Spark。
连接到你的Spark集群:
spark_conn <- spark_connect("local")
将track_metadata复制到Spark:
track_metadata_tbl <- copy_to(spark_conn, my_database)
你有哪些建议/说明/链接可以帮助我分析数据?
我的笔记本电脑是苹果电脑,处理器:2.9 GHz 双核 Intel Core i5,内存:8 GB 2133 MHz LPDDR3。