金融分析数据存储

5
我正在建立一个系统,用于分析有关证券交易价格的大量财务数据。其中一个巨大挑战是确定存储这些数据的方法,因为数据将达到数十个TB。对这些数据会进行许多查询,例如按价格、时间、成交量等多个列过滤后计算平均值、标准差和总数。联接语句不是必需的,但最好能够使用。
目前,我正在评估infobright社区版、monetdb和greenplum社区版。它们目前看起来都很棒,但某些高级功能需要使用某些版本中不可用(例如使用多个服务器、插入/更新语句等)。
在这种情况下,您会使用哪些解决方案,并且它相比其他解决方案具有什么优势?成本效益是一个重要的优点。如果必须支付数据仓库解决方案,我会考虑,但如果可能的话,我更愿意避免它并采用开源/社区版路线。

1
实际上,即使在过滤后,(部分)求和、平均值、标准差等也不属于数据挖掘,它们只是纯粹的统计学。 - Has QUIT--Anony-Mousse
1
数据挖掘是从一组数据中发现新信息的过程。统计学是辅助这个过程的工具。我认为过分强调术语并不有益,如果我们就此争论将无济于事。这就像我说我不同意你的帖子,因为你把statistics拼错成了"statitics" - 这是对技术性的不必要强调。我的目标是利用这个数据库发现新信息。此外,数据仓库解决方案是以数据挖掘为重点构建的。因此,数据挖掘的概念在这里是适用的。 - user396404
然而,我同意您的看法,"数据库" 可能是这篇文章更好的标签。 - user396404
2个回答

1

我认为你提到的任何数据库都可以满足你的需求。如果你要处理数十TB的数据,购买企业许可证在MPP集群中运行可能是一个不错的资金利用方式,以保持处理时间的下降。此外,如果这个DW将为你的组织进行重要处理,拥有许可证意味着你可以得到供应商的支持,这对很多企业来说非常重要。但是,你的情况可能会有所不同。

更重要的问题是,你的数据摄入速率会是什么样子?对于一个金融系统来说,我认为方程式的一个重要部分应该是能够在继续进行正常处理的同时将新鲜数据加载到你的系统中。

在你的候选名单中,我只熟悉Greenplum,但我知道它在短时间内加载大量数据方面表现良好。GP还具有许多内置的统计和分析函数,你可以在DB内本地运行,包括内置的SQL函数、MADLib、R等。


1
Infobright可以在大量数据上实现快速查询性能,无需调整、投影和索引。在数据加载方面,我曾经看到每小时可以加载80TB的数据,每秒钟超过12,000个插入操作。
它是如何工作的呢?
1. 列导向与行导向 2. 数据包加压缩平均20:1 3. 知识网格 - 查询响应时间在子秒级别 4. 基于mysql架构构建的细粒度引擎
我仍然建议您考虑企业许可证,但您可以评估社区版并根据其测试您的性能和数据加载需求。
免责声明:作者与Infobright有关联。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接