11得票1回答
Spark:read.jdbc(..numPartitions..)和repartition(..numPartitions..)中的numPartitions之间的区别

我对以下方法中numPartitions参数的行为感到困惑: DataFrameReader.jdbc Dataset.repartition 官方文档中关于DataFrameReader.jdbc的numPartitions参数有以下说明: numPartitions:分区数。与...

8得票1回答
如何在Pyspark中使用Azure-sqldb-spark连接器

我希望使用PySpark每天向Azure SQL服务器数据库写入约10GB的数据。目前使用的是JDBC驱动程序,需要逐个制作插入语句,这需要数小时的时间。 我打算使用azure-sqldb-spark连接器,它声称可以通过批量插入来加速写入。 我查阅了官方文档:https://github...