我正在寻找一个小型的C库来处理utf8字符串。
具体来说,根据unicode分隔符进行拆分,以便与词干算法一起使用。
相关帖子建议:
ICU http://www.icu-project.org/(我发现对于嵌入式设备,它太笨重了)
UTF8-CPP:http://utfcpp.sourceforge.net/(非常好,但是是C++而不是C)
有没有人找到过处理unicode字符串的平台无关、小型代码库(不需要自然化)。
我正在寻找一个小型的C库来处理utf8字符串。
具体来说,根据unicode分隔符进行拆分,以便与词干算法一起使用。
相关帖子建议:
ICU http://www.icu-project.org/(我发现对于嵌入式设备,它太笨重了)
UTF8-CPP:http://utfcpp.sourceforge.net/(非常好,但是是C++而不是C)
有没有人找到过处理unicode字符串的平台无关、小型代码库(不需要自然化)。
UTF-8是专门设计的,以便许多面向字节的字符串函数可以继续工作或仅需要进行较小的修改。
例如, C 的strstr
函数只要其输入都是有效的、以 null 结尾的 UTF-8 字符串,就能够完美地运行。 另外,strcpy
函数只要其输入字符串从字符边界开始(例如 strstr
的返回值),就能够正常工作。
因此,您甚至可能不需要一个单独的库!