据我所知,所有中文字符和部首都可以无问题地输入到数据库中,但不包括这些很少使用的“字符组件”。上面提到的字符是Unicode U+20089和HTML实体𠂉
。我可以通过输入<html>𠂉</html>
并删除HTML转义来在页面上显示它,但我想简单地将其存储为Unicode字符并保留HTML转义。许多其他中文“组件”(完整字符的一部分,通常由2或3个笔画组成)也会导致同样的问题。
根据此页面,上述字符位于UTF-8字符集中:http://www.fileformat.info/info/unicode/char/20089/charset_support.htm
但是在相邻的“...20089/index.htm”页面上,有一个警报说它不是有效的Unicode字符。
为了参考,在Mac OS X中,可以通过搜索字符调色板(国际菜单,“显示字符调色板”),按部首搜索,并在“丿”部首下查找该实体。
如果问题过于开放,敬请谅解...像这样的字符是否可以存储在基于UTF-8的数据库中?这个字符既受支持又不受支持,既存在于字符集中又无效?