319得票17回答
如何在Spark Dataframe中显示完整列内容?

我正在使用spark-csv将数据加载到DataFrame中。我想执行一个简单的查询并显示内容:val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv")...

171得票16回答
使用spark-csv编写单个CSV文件

我正在使用https://github.com/databricks/spark-csv,我想写一个单独的CSV文件,但是无法实现,它会生成一个文件夹。 需要一个Scala函数,它将接受路径和文件名等参数,并写入CSV文件。

85得票13回答
在Scala Spark中读取CSV文件并将其转换为数据框时,请提供模式。

我试图将一个csv文件读入一个数据帧中。我知道我的数据帧的模式应该是什么,因为我知道我的csv文件。同时,我正在使用spark csv包来读取该文件。我尝试像下面这样指定架构。val pagecount = sqlContext.read.format("csv") .option("de...

26得票2回答
如何在Pyspark中估算数据框的真实大小?

如何确定数据框的大小? 现在我根据以下方法估算数据框的实际大小:headers_size = key for key in df.first().asDict() rows_size = df.map(lambda row: len(value for key, value in row.a...

21得票7回答
如何使用spark-csv包从HDFS读取大型CSV文件的前n行?

我在HDFS上有一个很大的分布式文件,每次使用带有spark-csv包的sqlContext时,它首先加载整个文件,这需要一些时间。df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', in...

15得票4回答
我可以使用spark-csv将以字符串表示的CSV文件读入Apache Spark吗?

我知道如何使用spark-csv将CSV文件读入Apache Spark,但我已经将CSV文件表示为字符串,并希望直接将此字符串转换为数据框。这种可能吗?

15得票2回答
如何使用spark-csv解析使用^A(即\001)作为分隔符的csv文件?

我对Spark、Hive、大数据和Scala等内容非常陌生,现在我需要编写一个简单的函数来获取SQLContext并从S3加载CSV文件返回DataFrame。问题是这个CSV文件使用^A(即\001)字符作为分隔符,数据集很大,因此我不能只是在它上面执行“s/\001/,/g”命令。此外,字...

13得票1回答
spark-csv包中的inferSchema功能

在Spark中,当CSV文件以dataframe的形式被读取时,所有的列都会被读取为字符串。是否有办法获取列的实际类型? 我有以下的CSV文件。Name,Department,years_of_experience,DOB Sam,Software,5,1990-10-10 Alex,Dat...

9得票2回答
Spark无法读取CSV文件,当最后一列的列名包含空格时。

I have a CSV that looks like this: +-----------------+-----------------+-----------------+ | Column One | Column Two | Column Three |...

8得票2回答
使用spark-csv与DataFrames时出现NullPointerException错误

在阅读spark-csv README时,有一些Java示例代码如下: import org.apache.spark.sql.SQLContext; import org.apache.spark.sql.types.*; 这些代码涉及IT技术。 SQLContext sqlContext...