在HDFS（Hadoop文件系统）目录中读取文件到Pandas数据帧中

Question

4

我正在从Hive查询中生成一些分隔文件到多个HDFS目录。接下来，我想将这些文件读入单个pandas数据帧中，以应用标准的非分布式算法。

在某种程度上，使用"hadoop dfs -copyTolocal"后跟本地文件系统操作可以得到可行的解决方案，但我正在寻找一种特别优雅的方式来加载数据，以便将其纳入我的标准实践中。

一种理想解决方案的一些特点：

- Setjmp

你可能会喜欢看看这个问题。 - Andy Hayden

你是想以分布式的方式组装查询结果吗？还是运行单个进程来生成合并框架？大概有多少数据？（总体形状） - Jeff

你可以使用 hadoop dfs -get /path/to/file - 命令将内容流式传输到标准输出(stdout)。虽然不太优雅，但确实满足了你的第一个理想要求（如果流出现错误则不是很理想）。 - Chris White

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Setjmp · Accepted Answer

看起来pydoop.hdfs模块可以解决这个问题，同时达到一组良好的目标:

由于pydoop具有非常严格的编译要求，而我的Hadoop版本有点过时，因此我无法进行评估。