1) 我从两个月前开始使用Hive。我的任务与SQL中的相同。我发现Hive很慢,执行查询需要更长的时间,而SQL只需要几分钟/秒。
在Hive中执行任务后,当我在SQL和Hive中交叉检查结果时,我发现一些结果存在差异(不是全部表格)。 例如:我有一个表格,其中有2012条记录,当我在Hive中执行相同的任务时,我只得到了2007条记录。
为什么会出现这种情况?
2) 如果我想加速Hive的执行速度,我应该怎么做? (目前我只在单个集群上执行所有操作。如果我想增加集群数量,我需要增加多少个集群才能提高性能)
请给我一些解决方案或一些好的实践方法,以便我可以专注地完成它。
谢谢。