我正在尝试使用Spark-CSV包 (https://github.com/databricks/spark-csv) 将
如 Spark SQL 文档所示 (https://spark.apache.org/docs/latest/sql-programming-guide.html), 对于内置源 (例如 JSON),模式和数据类型可以自动推断。
是否可以自动推断 CSV 文件中的列类型呢?
csv
文件读取到 Spark DataFrames
中。一切都很顺利,但是所有列都被假定为 StringType
。如 Spark SQL 文档所示 (https://spark.apache.org/docs/latest/sql-programming-guide.html), 对于内置源 (例如 JSON),模式和数据类型可以自动推断。
是否可以自动推断 CSV 文件中的列类型呢?
sqlContext.jsonFile("...")
从JSON文件创建df,该文件具有一个整数和一个字符串字段,则这些类型将在模式中定义。CSV数据源格式是否支持此功能? - Oleg Shirokikh