得票数最多 'spark-csv' 问题

关联标签

319得票17回答

如何在Spark Dataframe中显示完整列内容？

我正在使用spark-csv将数据加载到DataFrame中。我想执行一个简单的查询并显示内容：val df = sqlContext.read.format("com.databricks.spark.csv").option("header", "true").load("my.csv")...

dataframescalaapache-sparkspark-csvoutput-formatting

171得票16回答

使用spark-csv编写单个CSV文件

我正在使用https://github.com/databricks/spark-csv，我想写一个单独的CSV文件，但是无法实现，它会生成一个文件夹。需要一个Scala函数，它将接受路径和文件名等参数，并写入CSV文件。

scalacsvapache-sparkspark-csv

85得票13回答

在Scala Spark中读取CSV文件并将其转换为数据框时，请提供模式。

我试图将一个csv文件读入一个数据帧中。我知道我的数据帧的模式应该是什么，因为我知道我的csv文件。同时，我正在使用spark csv包来读取该文件。我尝试像下面这样指定架构。val pagecount = sqlContext.read.format("csv") .option("de...

scalaapache-sparkdataframeapache-spark-sqlspark-csv

26得票2回答

如何在Pyspark中估算数据框的真实大小？

如何确定数据框的大小？现在我根据以下方法估算数据框的实际大小：headers_size = key for key in df.first().asDict() rows_size = df.map(lambda row: len(value for key, value in row.a...

pythonapache-sparkdataframespark-csv

21得票7回答

如何使用spark-csv包从HDFS读取大型CSV文件的前n行？

我在HDFS上有一个很大的分布式文件，每次使用带有spark-csv包的sqlContext时，它首先加载整个文件，这需要一些时间。df = sqlContext.read.format('com.databricks.spark.csv').options(header='true', in...

apache-sparkpysparkhdfsapache-spark-sqlspark-csv

15得票4回答

我可以使用spark-csv将以字符串表示的CSV文件读入Apache Spark吗？

我知道如何使用spark-csv将CSV文件读入Apache Spark，但我已经将CSV文件表示为字符串，并希望直接将此字符串转换为数据框。这种可能吗？

apache-sparkpysparkapache-spark-sqlspark-csv

15得票2回答

如何使用spark-csv解析使用^A（即\001）作为分隔符的csv文件？

我对Spark、Hive、大数据和Scala等内容非常陌生，现在我需要编写一个简单的函数来获取SQLContext并从S3加载CSV文件返回DataFrame。问题是这个CSV文件使用^A（即\001）字符作为分隔符，数据集很大，因此我不能只是在它上面执行“s/\001/,/g”命令。此外，字...

scalaapache-sparkhivedelimiterspark-csv

13得票1回答

spark-csv包中的inferSchema功能

在Spark中，当CSV文件以dataframe的形式被读取时，所有的列都会被读取为字符串。是否有办法获取列的实际类型？我有以下的CSV文件。Name,Department,years_of_experience,DOB Sam,Software,5,1990-10-10 Alex,Dat...

scalaapache-sparkapache-spark-sqlspark-csv

9得票2回答

Spark无法读取CSV文件，当最后一列的列名包含空格时。

I have a CSV that looks like this: +-----------------+-----------------+-----------------+ | Column One | Column Two | Column Three |...

scalacsvapache-sparkapache-commonsspark-csv

8得票2回答

使用spark-csv与DataFrames时出现NullPointerException错误

在阅读spark-csv README时，有一些Java示例代码如下： import org.apache.spark.sql.SQLContext; import org.apache.spark.sql.types.*; 这些代码涉及IT技术。 SQLContext sqlContext...

apache-sparkapache-spark-sqlspark-csv