pyspark：使用spark.read.format("csv")和spark.read.csv读取CSV文件的性能差异

Question

pyspark：使用spark.read.format("csv")和spark.read.csv读取CSV文件的性能差异

4

有人知道spark.read.format("csv")和spark.read.csv之间的区别吗？

有些人说"spark.read.csv"是"spark.read.format("csv")"的别名，但我发现这两者之间存在差异。我进行了一次实验，在一个新的pyspark会话中执行了下面的每个命令，以便没有缓存。

DF1花费了42秒，而DF2只花费了10秒。csv文件大小为60+GB。

DF1 = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("hdfs://bda-ns/user/project/xxx.csv")

DF2 = spark.read.option("header", "true").csv("hdfs://bda-ns/user/project/xxx.csv")

我挖掘这个问题的原因是因为我需要在过滤后对两个数据框执行联合操作，然后将其写回到HDFS中，但写入时间非常长（16小时后仍在写入...）。

- user1342124

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Duy Nguyen · Accepted Answer

基本上，当你调用它们中的一个时，它们是完全相同的。但是在你的实现中有所不同。

使用DF1时，添加inferSchema选项会减慢进程速度，这就解释了为什么DF1花费的时间比第二个要长。

inferSchema：自动推断列类型。它需要对数据进行额外的一遍扫描，默认情况下为false。详细文档请参见详细文档。