卡桑德拉模式用于进行小时级查询

Question

卡桑德拉模式用于进行小时级查询

cassandra

3

我希望能从多个来源将数据存储在Cassandra中，并每小时运行一次任务，以处理该特定小时的数据点。为此，最好使用哪种模式？

为避免热点问题，我不能将每小时的所有数据都放在单个分区中，因此每小时的数据需要分布在许多分区中。

所以我看到两种查询特定小时的方式：

1.每小时创建一个新表，并对该表执行无where子句的select *以读取该小时的数据。我认为这对于读写是有效的，但管理如此多的表会很麻烦。

2.每周创建一个新表，并在其中包含一列用于表示一周内的小时数（即1至168），并在其上创建一个二级索引。然后可以执行where hour=x的select *。这似乎有效，但如果有大量行，则担心它不会很好地扩展。

是否有人知道哪种方法更好？还有其他更好的方法吗？

谢谢。

- Jim Meyer

2个回答

1

你没有太多选择，正如你已经发现的那样，解决方案都有缺点。

由于二级索引相关的可扩展性问题，我肯定会避免使用第二种解决方案。如果你现在需要解决方案，我会使用多个表格。如果你可以等待，我会使用Cassandra 3和materialized views，选择一个合适的键。

希望对你有所帮助，卡洛

- Carlo Bertuccini

嗨，Carlo，我在物化视图中应该使用什么键？如果我将日期和小时作为分区键，则似乎会回到物化视图中的热点问题。据我所知，物化视图是在基表中每次插入时更新而不是惰性评估。 - Jim Meyer

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- joscas · Accepted Answer

在这种情况下，您可以使用“buckets”来分割分区成几个独立的部分。例如，假设您的模式如下：

CREATE KEYSPACE timeseries WITH replication = { 'class' : 'SimpleStrategy', 'replication_factor' : 1 }; USE timeseries; CREATE TABLE hourly ( source_id text, hour text, date timestamp, data text, bucket int, PRIMARY KEY ((hour, bucket), date) );

然后，您可以使用“bucket”将小时分为10个分区，使用一些已知标识符（例如“source_id”）的哈希函数。

在查询时，您需要指定“hour”和通常所有桶：

SELECT * FROM hourly WHERE hour = '2015-07-20 23:00' AND bucket IN (0,1,2,3,4,5,6,7,8,9);

哈希函数很重要，因为您希望它将数据均匀地分布在不同的分区中，即使被散列的标识符不是均匀分布的，但您也不希望它是非常复杂的函数。

这个JSFiddle提供了一个非常简单的哈希函数示例，可以均匀地分配数据并且可以在任何语言中轻松复制: http://jsfiddle.net/joscas/yfp72fq5/ 否则，如果您使用id的模数或时间戳的模数而不是哈希函数，则可能会满足需求，但如果使用id的模数，则必须检查数字是否以一致的模式结尾。另一方面，如果您使用时间戳的模数，您将有效地将所有内容写入某个bucket中一段时间，如果桶的数量很小，则可能会创建热点。