将CSV文件导入Hadoop

11

我是Hadoop的新手,我有一个要通过命令行导入到Hadoop的文件(我通过SSH访问机器)

我该如何在Hadoop中导入文件? 后续如何检查(使用命令)?


2
你想将CSV文件添加到HDFS吗?导入到Hadoop是什么意思? - karthik manchala
我只想将我的数据添加到Hadoop中,这些数据在CSV文件中。 - akaliza
1
尝试使用 $HADOOP_HOME/bin/hadoop fs -put <csv文件位置> <hdfs位置> 命令将文件上传至 HDFS。例如:$HADOOP_HOME/bin/hadoop fs -put /home/address.csv hdfs://192.168.123.123:9000/address.csv - karthik manchala
2个回答

13

导入CSV文件的2个步骤:

  1. 使用WinSCP或Cyberduck将CSV文件移动到Hadoop Sandbox(/home/username)。
  2. 使用-put命令将文件从本地位置移动到HDFS。

    hdfs dfs -put /home/username/file.csv /user/data/file.csv

1

我们可以使用三个标志将数据从本地计算机加载到HDFS中,

-copyFromLocal

我们使用此标志将数据从本地文件系统复制到Hadoop目录。

hdfs dfs –copyFromLocal /home/username/file.csv /user/data/file.csv

如果文件夹不是以HDFS或root用户创建的,我们可以创建该文件夹:
hdfs dfs -mkdir /user/data

-put

如@Sam在上面的回答中提到的,我们也使用-put标志将数据从本地文件系统复制到Hadoop目录。

hdfs dfs -put /home/username/file.csv /user/data/file.csv

-moveFromLocal

我们还使用-moveFromLocal标志将数据从本地文件系统复制到Hadoop目录。但这将从本地目录中删除该文件。

hdfs dfs -moveFromLocal /home/username/file.csv /user/data/file.csv

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接