我需要将维基百科转储(mysql表,未压缩的文件大约占用50GB)导入到Hadoop(hbase)中。现在首先将转储加载到mysql中,然后从mysql传输数据到hadoop。但是将数据加载到mysql中需要大量时间 - 大约4-7天。是否可能直接将mysql转储加载到hadoop中(通过某些转储文件解析器或类似工具)?
我需要将维基百科转储(mysql表,未压缩的文件大约占用50GB)导入到Hadoop(hbase)中。现在首先将转储加载到mysql中,然后从mysql传输数据到hadoop。但是将数据加载到mysql中需要大量时间 - 大约4-7天。是否可能直接将mysql转储加载到hadoop中(通过某些转储文件解析器或类似工具)?
使用sqoop。这个工具可以使用map reduce作业将mysql数据导入HDFS。
它很方便。