雪花算法比索引更好用吗？

Question

5

这是问题：我有一个包含销售信息的销售信息表，其中包含列如(主键ID、产品名称、产品ID、商店名称、商店ID、销售日期)。我想在商店/产品/销售日期上进行上钻和下钻等分析。

我正在考虑两个设计选项：

1.在类似产品名称、产品ID、商店名称、商店ID、销售日期的列上创建单独的索引； 2.使用数据仓库雪花模型，将当前销售信息表视为事实表，并创建产品、商店和销售日期维度表。

为了获得更好的分析性能，我听说雪花模型比数据库设计角度上相关列的索引更好。但为什么从数据库设计角度上来讲它更好呢？

谢谢！ Lin

- Lin Ma

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- dkamins · Accepted Answer

了解您的应用使用模式和您要优化的内容非常重要。以下是选择一个而不是另一个的一些原因（其中之一）。

规范化雪花 PROs：

更快的查询和更低的磁盘和内存要求。由于每个规范化行仅具有短键而不是更长的文本字段，因此您的主要事实表变得更小。即使使用索引（除非查询可以直接由索引本身回答），通常也需要部分表扫描，较小的数据意味着更少的磁盘读取和更快的访问。

更容易进行修改并获得更好的数据完整性。假设商店更改了名称。在雪花中，您只需更改一行，而在大型反规范化表中，您必须每次更改它时都更改它，并且经常会出现拼写错误和相同名称的多个变体。

更快的单个记录加载。当您最常加载单个记录或少量记录时，将所有数据放在一行中将仅产生一个缓存未命中或磁盘读取，而在雪花中，DB可能必须从不同的磁盘位置读取多个表。这更像是 NoSQL 数据库存储与密钥相关联的“对象”的方式。