使用spark_read_csv()无法将CSV文件读入Spark

Question

使用spark_read_csv()无法将CSV文件读入Spark

4

我正在尝试使用sparklyr将csv文件读入R。使用read.csv()可以轻松地将.csv文件读入R中，但是当我尝试使用spark_read_csv()时出现了问题。

accidents <- spark_read_csv(sc, name = 'accidents', path = '/home/rstudio/R/Shiny/accident_all.csv')

然而，当我尝试执行此代码时，我收到以下错误：

Error in as.hexmode(xx) : 'x' cannot be coerced to class "hexmode"

通过谷歌搜索，我没有找到太多关于这个错误的信息。有人能解释一下这里发生了什么吗？

- Raphael K

你能提供一个可重现的例子吗？ - Kevin Ushey

不确定，说实话。如果我弄清楚了如何做到这一点，我会更新的。 - Raphael K

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Koushik Khan · Accepted Answer

是的，使用spark_read_csv()函数可以轻松地在Spark Dataframe中读取本地.csv文件。我有一个位于文档目录中的.csv文件，并且已经使用以下代码片段进行了读取。我认为不需要使用file://前缀。以下是代码片段：

Sys.setenv(SPARK_HOME = "C:/Spark/spark-2.0.1-bin-hadoop2.7/")
library(SparkR, lib.loc = "C:/Spark/spark-2.0.1-bin-hadoop2.7/R/lib")
library(sparklyr)
library(dplyr)
library(data.table)
library(dtplyr)

sc <- spark_connect(master = "local", spark_home = "C:/Spark/spark-2.0.1-bin-hadoop2.7/", version = "2.0.1")

Credit_tbl <- spark_read_csv(sc, name = "credit_data", path = "C:/Users/USER_NAME/Documents/Credit.csv", header = TRUE, delimiter = ",")

您只需调用对象名称Credit_tbl即可查看数据框。