我偶尔会下载以Postgres dBs形式公开提供的数据集。这些数据集由存储库主机随时间进行更新、修改和扩展。 是否有一种Postgres命令或工具(最好是FOSS),可以显示旧版和新版Postgres数据库之间的差异?(一个工作假设是95%的条目没有改变,表和关系也没有改变)。
数据仓库建模的主要拓扑结构(星型、雪花型)是根据一对多关系设计的。但是,当遇到多对多关系时,这些建模方法会严重降低查询可读性、性能和结构。在数据仓库中,如何实现维度之间或事实表与维度之间的多对多关系?这样做会对必要的粒度和查询性能产生什么妥协呢?
我意识到我的公司使用的是ELT(提取-加载-转换)过程,而不是ETL(提取-转换-加载)过程。 这两种方法有什么区别?在哪些情况下,一种方法比另一种方法更好?如果您能提供一些例子,那就太好了。
我对Microsoft Sql Server Business Intelligence和Analysis Service非常陌生(虽然我多年来一直在使用SQL Server进行编程)。有人能用简单的话语(如果有可能还附带图片)来描述立方体中的度量和维度吗? 谢谢。
我正在对一个数据仓库进行性能调优,使用索引。对于SQL Server 2014,我是相对新手。Microsoft有以下描述: "我们将聚集列存储索引视为存储大型数据仓库事实表的标准,并预计它将在大多数数据仓库场景中使用。由于聚集列存储索引可更新,您的工作负载可以执行大量的插入、更新和删除操作...
我参与了一个新项目,需要从现有的关系数据库系统中创建数据立方体。 我了解到现有系统设计不合理,不确定从何处开始。 我的问题是: - 星型模式和数据立方体有什么区别? - 我应该从星型模式还是直接从数据立方体开始? - 数据立方体是由星型模式生成的吗? 我在关系数据建模方面经验有限,这个...
我想知道为什么还没有人问过这个问题。谷歌上只有很少的结果,没有显示出高质量的工具。 有哪些开源(免费也可以)的数据仓库解决方案,尤其是商业智能工具?你对它们有什么经验?我在硕士课程中学过MS Business Intelligence和MSSQL作为数据仓库存储。现在我想更深入地了解这个主题...
当使用系统版本化时间表(在SQL Server 2016中新增)时,对于处理大型关系型数据仓库中的慢变化维度,这个功能会带来哪些查询编写和性能方面的影响呢? 例如,假设我有一个包含10万行的Customer维度表,其中包含一个Postal Code列,以及一个拥有数十亿行的Sales事实表,...
根据我的分析,我们的数据仓库需要从200多个源表中提取数据来构建一个完整的维度模型。其中一些表将作为增量加载的一部分进行提取,而其他表将进行全量加载。 值得注意的是,我们有大约225个具有相同模式的源数据库。 根据我所见,使用SSIS构建一个简单的数据流,需要在设计时确定列和数据类型。这意...
我们正在设计数据集市/仓库的基本构建模块,我们需要支持所有时区(我们的客户来自世界各地)。从在线讨论(和书籍)中了解到,一个常见的解决方案似乎是在事实表中有一个单独的日期和时间维度以及一个时间戳。 然而,我很难回答的问题是,考虑到我的动态时区要求,日期和时间维度实际上对我有什么好处?时间维度...