在 MySQL 中,utf8mb4_0900_ai_ci
和 utf8_unicode_ci
数据库文本编码有什么区别(尤其是在性能方面)?
更新:
utf8mb4_unicode_ci
和 utf8mb4_0900_ai_ci
之间是否存在类似的差异?
utf8_unicode_ci
表示CHARACTER SET utf8
,它只包含1、2和3字节的UTF-8字符。因此,它不包括大多数表情符号和一些中文字符。
utf8mb4_unicode_ci
表示CHARACTER SET utf8mb4
是4字节CHARACTER SET utf8mb4
的相应COLLATION
。
Unicode组织多年来一直在演变其规范。以下是从其“版本”到MySQL排序规则的映射:
4.0 _unicode_
5.2.0 _unicode_520_ (Unicode 2009; MySQL GA 5.6 2013)
9.0 _0900_
14.0 _uca1400_ai_ci etc. as/ai and cs/ci (MariaDB-10.10, not MySQL)
_bin -- just compare the bits; don't consider case folding, accents, etc
_ci -- explicitly case insensitive (A=a) and implicitly accent insensitive (a=á)
_ai_ci -- explicitly case insensitive and accent insensitive
_as (etc) -- accent-sensitive (etc)
_bin -- simple, fast
_general_ci -- fails to compare multiple letters; eg ss=ß, so somewhat fast
... -- slower
_900_ -- (8.0) much faster because of a rewrite
utf8mb4_unicode_ci
和 utf8mb4_0900_ai_ci
之间存在类似的差异吗? - Kamil Kiełczewski
mbX
意为多字节(用 X 字节存储一个字符),0900
是对比算法,ai
表示不区分重音,ci
表示不区分大小写。 - marekful