你好,我相对来说还是一个Apache Spark的新手。我希望能够理解RDD、dataframe和datasets之间的区别。
比如说,我正在从S3存储桶中提取数据。
最初的回答:
df=spark.read.parquet("s3://output/unattributedunattributed*")
在这种情况下,当我从s3加载数据时,RDD会是什么?由于RDD是不可变的,所以我可以为df更改值,因此df不能是rdd。 如果有人能够解释RDD、DataFrame和DataSet之间的区别,那就太感激了。"最初的回答"