我们希望在我们的系统中实现Hadoop,以提高其性能。
该过程如下: Hadoop将从MySQL数据库中获取数据,然后对其进行处理。 接着,输出结果将会被导出回MySQL数据库。
这是一个好的实现方案吗?这是否会提高我们系统的整体性能? 有哪些要求需要满足?之前有没有人做过类似的工作?一份好的教程会非常有帮助。
谢谢
我们希望在我们的系统中实现Hadoop,以提高其性能。
该过程如下: Hadoop将从MySQL数据库中获取数据,然后对其进行处理。 接着,输出结果将会被导出回MySQL数据库。
这是一个好的实现方案吗?这是否会提高我们系统的整体性能? 有哪些要求需要满足?之前有没有人做过类似的工作?一份好的教程会非常有帮助。
谢谢
Hadoop主要用于大量半结构化数据的批处理作业。批处理是指即使最短的作业也需要几分钟的时间。您面临的性能问题是什么类型?是基于数据转换还是报告生成?根据情况,这种架构可能会有所帮助,也可能会使事情变得更糟。
我同意Sai的观点。只有在需要时,我才会将Hadoop与MySQL一起使用。我将表格导出为CSV格式并上传到HDFS以更快地处理数据。如果您想要持久化您的已处理数据,您将需要编写一个单个reducer作业来执行批量插入,以提高插入性能。
但是这实际上取决于你想要做什么样的事情。