Java - 检查String大小的最快方法

Question

Java - 检查String大小的最快方法

11

我有以下代码在一个循环语句中。
在循环中，将字符串追加到sb（StringBuilder）中并检查sb的大小是否达到5MB。

if (sb.toString().getBytes("UTF-8").length >= 5242880) {
    // Do something
}

这个方法可以工作，但是它非常慢（在检查大小方面）
有什么更快的方法可以实现这个功能吗？

- d-_-b

3个回答

9

如果您循环1000次，将生成1000个字符串，然后将其转换为“UTF-8字节”数组，以获取长度。

我建议通过存储第一个长度来减少转换。然后，在每次循环中，仅获取添加值的长度，这样就可以进行加法操作了。

int length = sb.toString().getBytes("UTF-8").length;
for(String s : list){
    sb.append(s);
    length += s.getBytes("UTF-8").length;
    if(...){
    ...
    }
}

这将减少内存使用和转换成本。

- AxelH

2

考虑使用 ByteArrayOutputStream 和 OutputStreamWriter 代替 StringBuilder。使用 ByteArrayOutputStream.size() 来测试大小。

- Maurice Perry

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Holger · Accepted Answer

您可以使用以下方法快速计算UTF-8长度：

public static int utf8Length(CharSequence cs) {
    return cs.codePoints()
        .map(cp -> cp<=0x7ff? cp<=0x7f? 1: 2: cp<=0xffff? 3: 4)
        .sum();
}

如果内容主要由ASCII字符组成，使用以下方法可能会稍微快一些：

public static int utf8Length(CharSequence cs) {
    return cs.length()
         + cs.codePoints().filter(cp -> cp>0x7f).map(cp -> cp<=0x7ff? 1: 2).sum();
}

但您也可以考虑优化潜力，而不是重新计算整个大小，而只计算您附加到 StringBuilder 的新片段的大小，类似于

instead.

    StringBuilder sb = new StringBuilder();
    int length = 0;
    for(…; …; …) {
        String s = … //calculateNextString();
        sb.append(s);
        length += utf8Length(s);
        if(length >= 5242880) {
            // Do something

            // in case you're flushing the data:
            sb.setLength(0);
            length = 0;
        }
    }

假设您正在追加包含代理对的片段，那么它们始终是完整的，而不是分成两半。对于普通应用程序来说，这应该总是成立的。

另一个可能性是由Didier-L提出的，即将计算延迟到 StringBuilder 达到阈值除以三的长度之前，因为在此之前，不可能具有大于阈值的 UTF-8 长度。然而，只有在某些情况下未达到 threshold / 3 时才会有益。