使用二进制排序规则会产生哪些影响？

Question

59

回答此问题时，我开始对一个问题感到不确定，并没有找到足够的答案。

utf8_bin和不区分大小写的utf8_general_ci排序规则之间有哪些实际差异？

我能看到三个方面：

还有其他需要注意的差异或副作用吗？

参考：

类似但并未解决问题的问题：

- Pekka

4个回答

20

utf8_bin: 比较字符串时会通过每个字符的二进制值进行比对。

utf8_general_ci: 使用一般语言规则，并且忽略大小写来比较字符串。

utf8_general_cs: 使用一般语言规则，但区分大小写来比较字符串。

例如，以下内容无论使用哪种 UTF8_general 编码都会返回 true，但不适用于 utf8_bin 编码：

Ä = A Ö = O Ü = U

- HaloWebMaster

2

*_cs 是否比 *_ci 更快？适用于英文/ASCII字符串。 - Yousha Aleayoub

2

其他答案已经很好地解释了差异。

在某些情况下，二进制排序规则可能会很有用：

- 列包含十六进制数据，例如密码哈希值 - 您只对精确匹配感兴趣，而不是排序 - 对于仅包含 [a-z0-9_] 字符的标识符，您甚至可以将其用于排序 - 如果由于某种原因在 CHAR() 或 VARCHAR 列中存储数字（例如电话号码） - 邮政编码 - UUIDs - 等等

在所有这些情况下，您都可以通过使用二进制排序规则来节省一点 CPU 周期。

- bobflux

二进制类型是什么？ascii_bin、utf8_bin、latin1_bin等等...? - Yousha Aleayoub

1

使用utf8_general_ci，匹配不区分大小写和重音符号。当您需要对单词执行查询时，这可能是一件好事。

在utf8_bin中，仅当字符串严格相同时才匹配。这种方式的查询速度更快。

- Mathieu Rodic

utf8_bin比latin1_bin或ascii_bin更快吗？ - Yousha Aleayoub

2

不过，**_bin** 应该比 _ci 更快，因为大小写不敏感的查询（或索引）涉及字符串转换。了解速度更快的最好方法是针对包含许多条目的数据库进行测试。 - Mathieu Rodic

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Vladislav Vaintroub · Accepted Answer

二进制排序法会完全按照C语言中的strcmp()方法比较您的字符串，如果字符不同（无论是大小写差异还是音标差异），则会将其视为不同。它的缺点是排序顺序不自然。

“二进制”排序顺序的示例： A,B,a,b 在自然排序顺序中，例如：A,a,B,b（相同字母的大小写变体会排在一起）

二进制排序法的实际优势在于速度快，因为字符串比较非常简单/快速。在一般情况下，使用二进制索引可能无法产生期望的排序结果，但对于精确匹配，它们可能是有用的。