Athena具有一些默认服务限制,可帮助封顶意外的大数据湖中“失控”的查询成本(基于时间而非扫描的数据量),尽管这些限制并不十分出色,但它仍然很有帮助。Redshift Spectrum方面,它提供了哪些机制可以轻松地限制成本或减少“意外”扫描S3中过多数据的风险?解决这个问题的好方法是什么?
Spectrum scan size
(查询扫描的MB数量)和Spectrum scan row count
(查询扫描的行数)。Query execution time
来强制执行最长持续时间,但这将适用于所有查询类型,而不仅仅是Spectrum。wlm_qmr_rule_candidates
生成候选规则来开始使用QMR。生成的规则基于每个指标的第99个百分位数。