28得票4回答
比较两个相似的Postgres数据库以找出差异

我偶尔会下载以Postgres dBs形式公开提供的数据集。这些数据集由存储库主机随时间进行更新、修改和扩展。 是否有一种Postgres命令或工具(最好是FOSS),可以显示旧版和新版Postgres数据库之间的差异?(一个工作假设是95%的条目没有改变,表和关系也没有改变)。

28得票5回答
在数据仓库中实现多对多关系的几种方法有哪些?

数据仓库建模的主要拓扑结构(星型、雪花型)是根据一对多关系设计的。但是,当遇到多对多关系时,这些建模方法会严重降低查询可读性、性能和结构。在数据仓库中,如何实现维度之间或事实表与维度之间的多对多关系?这样做会对必要的粒度和查询性能产生什么妥协呢?

25得票3回答
使用ELT过程而不是ETL有哪些优势的论点?

我意识到我的公司使用的是ELT(提取-加载-转换)过程,而不是ETL(提取-转换-加载)过程。 这两种方法有什么区别?在哪些情况下,一种方法比另一种方法更好?如果您能提供一些例子,那就太好了。

23得票2回答
在立方体中,尺寸和维度是什么意思?

我对Microsoft Sql Server Business Intelligence和Analysis Service非常陌生(虽然我多年来一直在使用SQL Server进行编程)。有人能用简单的话语(如果有可能还附带图片)来描述立方体中的度量和维度吗? 谢谢。

21得票3回答
聚集列存储索引和外键

我正在对一个数据仓库进行性能调优,使用索引。对于SQL Server 2014,我是相对新手。Microsoft有以下描述: "我们将聚集列存储索引视为存储大型数据仓库事实表的标准,并预计它将在大多数数据仓库场景中使用。由于聚集列存储索引可更新,您的工作负载可以执行大量的插入、更新和删除操作...

20得票2回答
星型模式和数据立方体之间的区别是什么? 星型模式和数据立方体是数据仓库中常用的两种数据模型。它们都用于组织和存储大量数据,以支持数据分析和决策制定。 星型模式是一种基于实体-关系模型的数据模型。它由一个中心事实表(包含事实数据)和多个维度表(包含描述事实的维度属性)组成。事实表和维度表通过外键关联起来,形成了一个星型结构。这种模型简单直观,易于理解和查询,适用于小规模的数据集。 数据立方体是一种多维数据模型。它将数据组织成一个多维网格,其中每个维度都有层次结构。数据立方体可以通过切片、切块和钻取等操作进行快速的多维分析。它适用于大规模的数据集和复杂的分析需求。 总的来说,星型模式更适合简单的数据分析和报表生成,而数据立方体则更适合复杂的多维分析和数据挖掘。选择使用哪种模型取决于具体的业务需求和数据特点。

我参与了一个新项目,需要从现有的关系数据库系统中创建数据立方体。 我了解到现有系统设计不合理,不确定从何处开始。 我的问题是: - 星型模式和数据立方体有什么区别? - 我应该从星型模式还是直接从数据立方体开始? - 数据立方体是由星型模式生成的吗? 我在关系数据建模方面经验有限,这个...

17得票2回答
开源商业智能/数据仓库解决方案

我想知道为什么还没有人问过这个问题。谷歌上只有很少的结果,没有显示出高质量的工具。 有哪些开源(免费也可以)的数据仓库解决方案,尤其是商业智能工具?你对它们有什么经验?我在硕士课程中学过MS Business Intelligence和MSSQL作为数据仓库存储。现在我想更深入地了解这个主题...

17得票1回答
使用 SQL Server 2016 系统版本化时间表的查询策略,用于慢变维度。

当使用系统版本化时间表(在SQL Server 2016中新增)时,对于处理大型关系型数据仓库中的慢变化维度,这个功能会带来哪些查询编写和性能方面的影响呢? 例如,假设我有一个包含10万行的Customer维度表,其中包含一个Postal Code列,以及一个拥有数十亿行的Sales事实表,...

14得票2回答
ETL:从200个表中提取数据 - 使用SSIS数据流还是自定义T-SQL? 在进行ETL(提取、转换和加载)过程时,您可以选择使用SSIS数据流或自定义T-SQL来从200个表中提取数据。 SSIS(SQL Server Integration Services)是一种强大的ETL工具,它提供了可视化的界面和丰富的功能,使您能够轻松地设计和管理数据流。通过SSIS数据流,您可以直接连接到源数据库,并使用各种转换操作来提取所需的数据。这种方法适用于那些需要复杂转换和处理的情况,因为SSIS提供了许多内置的转换组件和任务。 另一方面,如果您对T-SQL非常熟悉并且喜欢编写自定义查询,那么使用自定义T-SQL可能更适合您。通过编写T-SQL查询,您可以根据特定的业务需求从200个表中提取数据,并进行必要的转换和过滤。这种方法适用于那些对数据操作有深入了解的人员,因为它需要一定的SQL编程技能。 无论您选择使用SSIS数据流还是自定义T-SQL,都需要考虑以下因素:数据量、性能要求、数据质量和维护成本。SSIS数据流适用于大规模数据提取和复杂转换,而自定义T-SQL适用于较小规模的数据提取和灵活性要求较高的情况。 最终的选择取决于您的具体需求和技术能力。如果您需要更多帮助或建议,请咨询专业的ETL开发人员或数据库管理员。

根据我的分析,我们的数据仓库需要从200多个源表中提取数据来构建一个完整的维度模型。其中一些表将作为增量加载的一部分进行提取,而其他表将进行全量加载。 值得注意的是,我们有大约225个具有相同模式的源数据库。 根据我所见,使用SSIS构建一个简单的数据流,需要在设计时确定列和数据类型。这意...

14得票2回答
处理数据仓库中的时区

我们正在设计数据集市/仓库的基本构建模块,我们需要支持所有时区(我们的客户来自世界各地)。从在线讨论(和书籍)中了解到,一个常见的解决方案似乎是在事实表中有一个单独的日期和时间维度以及一个时间戳。 然而,我很难回答的问题是,考虑到我的动态时区要求,日期和时间维度实际上对我有什么好处?时间维度...