64得票5回答
如何使用Python中的pyarrow从S3读取分区parquet文件

我正在寻找使用Python从S3中的多个分区目录读取数据的方法。data_folder/serial_number=1/cur_date=20-12-2012/abcdsd0324324.snappy.parquetdata_folder/serial_number=2/cur_date=27...

61得票8回答
Python:将 Pandas 数据帧保存为 Parquet 文件

是否可以直接将pandas数据框保存为parquet文件?如果不能,建议采取什么过程? 目的是能够将parquet文件发送给另一个团队,他们可以使用Scala代码来读取/打开它。谢谢!

59得票7回答
Pandas:如何从Parquet文件中读取前n行?

我有一个parquet文件,想要将文件中的前n行读取到pandas数据帧中。我尝试过:df = pd.read_parquet(path= 'filepath', nrows = 10) 它没有起作用并且给了我一个错误:TypeError: read_table() got an unexpe...

58得票18回答
加载Parquet文件时无法推断模式

response = "mi_or_chd_5" outcome = sqlc.sql("""select eid,{response} as response from outcomes where {response} IS NOT NULL""".format(response=res...

57得票10回答
如何将CSV文件转换为Parquet

我是新手,正在学习大数据。我需要将一个 .csv/.txt 文件转换为 Parquet 格式。我搜索了很多资料,但没有找到直接的方法。有没有什么办法可以实现这个目标呢?

54得票5回答
使用pyarrow如何向parquet文件追加数据?

如何使用 pyarrow 向 parquet 文件追加/更新数据?import pandas as pd import pyarrow as pa import pyarrow.parquet as pq table2 = pd.DataFrame({'one': [-1, np.nan...

54得票8回答
如何从parquet文件中获取模式/列名称?

我有一个存储在HDFS上的文件,名为part-m-00000.gz.parquet 我尝试运行命令hdfs dfs -text dir/part-m-00000.gz.parquet,但它是压缩文件,所以我运行了gunzip part-m-00000.gz.parquet,但它不能解压文件,...

53得票10回答
使用Python将CSV文件转换为Parquet文件

我正在尝试将一个 .csv 文件转换成一个 .parquet 文件。 这个 csv 文件 (Temp.csv) 的格式如下:1,Jon,Doe,Denver 我正在使用以下Python代码将其转换为parquet格式from pyspark import SparkContext from p...

52得票5回答
如何在Python中从S3中的Pandas数据帧中编写Parquet文件

我有一个Pandas数据帧,想将其写入到S3的Parquet文件中。我需要相应的示例代码。我已经尝试在谷歌上搜索,但是没有找到可用的示例代码。

51得票2回答
Parquet中的索引

我希望能够对Parquet表执行快速范围查询。与总大小相比,需要返回的数据量非常小,但因为必须执行完整列扫描,所以对于我的使用情况来说太慢了。 使用索引可以解决这个问题,我读到Parquet 2.0中将添加此功能。然而,我找不到任何其他有关此功能的信息,因此我猜想它没有被添加。如果数据被排序...