在HDFS(Hadoop文件系统)目录中读取文件到Pandas数据帧中

4
我正在从Hive查询中生成一些分隔文件到多个HDFS目录。接下来,我想将这些文件读入单个pandas数据帧中,以应用标准的非分布式算法。
在某种程度上,使用"hadoop dfs -copyTolocal"后跟本地文件系统操作可以得到可行的解决方案,但我正在寻找一种特别优雅的方式来加载数据,以便将其纳入我的标准实践中。
一种理想解决方案的一些特点:
  1. 无需创建本地副本(谁喜欢清理?)
  2. 最小化系统调用次数
  3. 少量的Python代码行数

你可能会喜欢看看这个问题 - Andy Hayden
你是想以分布式的方式组装查询结果吗?还是运行单个进程来生成合并框架?大概有多少数据?(总体形状) - Jeff
你可以使用 hadoop dfs -get /path/to/file - 命令将内容流式传输到标准输出(stdout)。虽然不太优雅,但确实满足了你的第一个理想要求(如果流出现错误则不是很理想)。 - Chris White
1个回答

3

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接