如何避免在Cassandra中使用二级索引？

Question

如何避免在Cassandra中使用二级索引？

15

我一直听说在Cassandra中，二级索引只是为了方便而不是为了提高性能。唯一建议使用二级索引的情况是当您的基数很低时（例如gender column只有两个值：男或女）

考虑以下示例：

CREATE TABLE users ( 
userID uuid, 
firstname text, 
lastname text, 
state text, 
zip int, 
PRIMARY KEY (userID) 
);

现在我无法执行这个查询，除非我在users上创建一个辅助索引，即在firstname index上。

select * from users where firstname='john'

如何将这张表格去规范化，以便我可以使用以下查询：这是唯一有效的方法吗？还有其他的替代方案或建议吗？

CREATE TABLE users ( 
    userID uuid, 
    firstname text, 
    lastname text, 
    state text, 
    zip int, 
    PRIMARY KEY (firstname,userID) 
    );

- brain storm

3个回答

4

有几种方法可以实现这个目标，每种方法都有其优缺点。

您的第二个查询将起作用，但它只是一个索引表。 http://wiki.apache.org/cassandra/SecondaryIndexes 辅助索引可能会有所帮助，如果您首先命中分区（在第一个表中无法执行此操作），则Cassandra的实现将为您节省麻烦并保持“本地原子性”。但是，如果没有命中分区，则具有索引的第一个表在查询方面效果不佳，因为它会在所有地方击中所有内容。
您可以完全去规范化，但也可以创建查找表。即：您的第二个表只能存在以返回用户ID。然后，您可以执行第二个查询，仅获取相关分区的信息。如果您预计结果很少，则这可能很好。否则，您将在许多节点上击中许多分区（这取决于群集大小和热点避免标准，可能是好或坏）。通常做许多~1ms查询比做一个~1000ms查询要好。
您可以进行人工分桶，并发出n = bucketcount查询。这具有额外的开销，但可以减少查询计数，这可能是一个不错的选择。
您的索引可能是名字的前几个字符。或者它可以是一致性哈希到几个桶中。前者可以为您提供“开始于”语义。

这些只是一些选项。从逻辑数据模型到物理数据模型需要评估您希望进行哪些权衡。

- ashic

请提供第2点和第3点的示例表格，我不太明白。 - brain storm

2：创建表lookup（firstname文本主键，userid uuid） 3：创建表foo（bucketid int，somecol int，... primary key（bucketid，your_cols）。查询时，您可以执行... WHERE bucketid in（1,2,3）。这将在3个分区上发出3个查询。 - ashic

你的第二点和我在帖子中提到的第一张表是相同的。这将不允许 where firstname="john" 这样的查询。BucketID 看起来很有趣，但我不完全清楚它是如何工作的。如果你能编辑答案并说明如何使用 BucketID，那将非常有帮助。谢谢。 - brain storm

0

还有自动更新的材料化视图，可以将数据分区到不同的列上，因此读取速度更快，完全避免了二级索引。这样做还有一些额外的好处。

避免热分区的总体思路仍然存在。

如果您在材料化视图主键上进行大量更新以避免墓碑，则还有SASI索引可用。

- kisna

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- medvekoma · Accepted Answer

为了得到一个好的数据模型，你需要首先识别出所有你想要执行的查询。如果你只需要按照用户的名字（或名字和用户ID）查找用户，那么第二个设计是可以的...

如果您还需要按用户的姓氏查找用户，则可以创建另一个具有相同字段但主键为（lastname，userID）的表。显然，您需要同时更新两个表。在Cassandra中，数据复制是可以接受的。

然而，如果您担心两个或更多表所需的空间，您可以创建一个由用户ID分区的单个用户表，以及其他要按字段查询的表：

CREATE TABLE users ( 
    userID uuid, 
    firstname text, 
    lastname text, 
    state text, 
    zip int, 
    PRIMARY KEY (userID) 
);

CREATE TABLE users_by_firstname (
    firstname text,
    userid uuid,
    PRIMARY KEY (firstname, userid)
);

这种解决方案的缺点是需要使用两个查询才能通过名字检索到用户：

SELECT userid FROM users_by_firstname WHERE firstname = 'Joe';
SELECT * FROM users WHERE userid IN (...);

希望这能有所帮助