Cassandra中的批量限制是什么？

Question

Cassandra中的批量限制是什么？

30

我有一个Java客户端，将记录批量推送（INSERT）到Cassandra集群中。批处理中的元素都具有相同的行键，因此它们都将被放置在同一个节点上。另外，我不需要事务是原子的，所以我一直使用未记录的批处理。

每个批处理中的INSERT命令数量取决于不同的因素，但可以是5到50000之间的任意数字。起初，我只是将尽可能多的命令放入一个批处理中并提交。结果出现了com.datastax.driver.core.exceptions.InvalidQueryException: Batch too large错误。然后我将每个批处理的INSERT限制设置为1000，然后降低到300。我注意到我只是随机猜测而不知道这个限制来自哪里，这可能会带来麻烦。

我的问题是，这个限制是什么？我能修改它吗？如何知道有多少元素可以放入批处理中？我的批处理何时“满”？

- m.hashemian

3个回答

5

查看Cassandra日志，您将能够发现以下内容：

错误 19:54:13 [matches]的批处理大小为103.072KiB，超过指定的50.000KiB阈值53.072KiB。 (请参阅batch_size_fail_threshold_in_kb)

- fivetwentysix

@user1870400，我正在使用以下配置： cassandra.concurrent.writes=1500 cassandra.output.batch.size.bytes=2056 cassandra.output.batch.grouping.key=partition cassandra.output.consistency.level=ANY cassandra.output.batch.grouping.buffer.size=3000 cassandra.output.throughput_mb_per_sec=25 - BdEngineer

@user1870400，我有2亿条记录，每条记录100字节...加载这些数据需要2小时...那么如何优化上述参数？ - BdEngineer

4

我通过将 CHUNKSIZE 更改为较低的值（例如 1）来解决了这个问题。 https://docs.datastax.com/en/cql/3.1/cql/cql_reference/copy_r.html 使用 CHUNKSIZE = 1 的命令：COPY mytable FROM 'mybackup';

操作速度会慢得多，但至少现在可以正常工作了。

- Etienne Cha

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Chris Lohfink · Accepted Answer

我建议不要增加限制，而是将请求分成多个。将所有内容放在一个巨大的单一请求中将会对协调器产生负面影响。将所有内容放在一个分区中可以通过减少某些延迟来提高一些批次的吞吐量，但是批处理从来没有旨在用于提高性能。因此，尝试使用不同的批处理大小来优化以获得最大吞吐量将在很大程度上取决于用例/模式/节点，并且需要特定的测试，因为通常存在开始退化的临界点。

有一个

# Fail any batch exceeding this value. 50kb (10x warn threshold) by default.
batch_size_fail_threshold_in_kb: 50

在您的cassandra.yaml中可以进行调整以增加它，但请务必进行测试以确保确实有所帮助，而不是影响吞吐量。