65得票10回答
如何在R中读取Parquet文件并将其转换为R DataFrame?

我希望能够用R编程语言处理Apache Parquet文件(在我的情况下,这些文件是由Spark生成的)。 是否有可用的R读取器?或者正在开发中吗? 如果没有,最快的方法是什么?注意:有Java和C++绑定:https://github.com/apache/parquet-mr

56得票7回答
SparkR与sparklyr对比

有人能提供有关SparkR与sparklyr优缺点的概述吗?谷歌没有给出令人满意的结果,这两者看起来非常相似。尝试使用两者,SparkR似乎更加繁琐,而sparklyr则非常简单(安装和使用都很直接,特别是对于dplyr输入)。sparklyr只能用于并行运行dplyr函数还是也可以用于“正常...

52得票4回答
安装SparkR

我有R的最新版本 - 3.2.1。现在我想在R上安装SparkR。我执行以下操作后:> install.packages("SparkR") 我得到:Installing package into ‘/home/user/R/x86_64-pc-linux-gnu-library/3.2...

37得票3回答
createOrReplaceTempView和registerTempTable的区别

我是spark的新手,并尝试在python中使用sparkSql时,遇到了这两个命令: createOrReplaceTempView()和registerTempTable()。 这两个命令有什么区别?它们似乎具有相同的功能集。

14得票7回答
无法在RStudio中启动SparkR

在经历了漫长而困难的SparkR安装过程后,我遇到了启动SparkR的新问题。我的设置如下:R 3.2.0 RStudio 0.98.1103 Rtools 3.3 Spark 1.4.0 Java Version 8 SparkR 1.4.0 Windows 7 SP...

14得票6回答
在Spark中对多个列求和

我该如何在Spark中对多列求和?例如,在SparkR中,以下代码可以用于获取一列的总和,但如果我尝试获取df中两列的总和,则会出现错误。 # Create SparkDataFrame df <- createDataFrame(faithful) # Use agg to sum...

13得票2回答
在SparkR中向DataFrame添加列

我希望在SparkR的DataFrame中添加一个填充有字符N的列。如果是非SparkR代码,我会这样做: df$new_column <- "N" 但使用SparkR时,我遇到了以下错误: Error: class(value) == "Column" || is.null(v...

12得票1回答
使用SparkR JVM调用来自Scala jar文件的方法

我想要能够将DataFrame打包到Scala jar文件中,并在R中访问它们。最终目标是创建一种方法,可以在Python、R和Scala中访问特定且经常使用的数据库表,而不需要为每个语言编写一个不同的库。 为了实现这一目标,我在Scala中制作了一个jar文件,其中包含使用SparkSQL...

11得票4回答
Spark数据框中的重复列

我在Hadoop集群中有一个大小为10GB的CSV文件,其中包含重复列。我尝试在SparkR中分析它,所以我使用spark-csv软件包将其解析为DataFrame: df <- read.df( sqlContext, FILE_PATH, source = ...

10得票1回答
同时使用SparkR和Sparklyr

据我所了解,这两个包都为Apache Spark提供类似但主要不同的封装函数。Sparklyr较新,其功能范围仍需扩大。因此,我认为目前需要同时使用这两个软件包才能获得完整的功能范围。 由于这两个软件包本质上都将Java实例的引用包装在scala类中,因此我认为可以并行使用这些软件包。但实际...