用于测试Unicode相关问题的Unicode示例文本文件?

6
我正在寻找一个样本文本Unicode文件(UTF-8),可用于测试与文本编码和解码相关的不同问题,包括:
  • 低ASCII字符使用,例如前32个代码
  • 超出BMP范围的字符
  • NFC相关问题
  • XML编码/解码问题
主要是想将文本复制到剪贴板中,将其粘贴到应用程序的HTML文本区域中,并能够从页面中检索它。
这将有助于识别在解码、编码甚至数据库级别可能出现的不同Unicode相关问题。

规范表示法:相等但不同的字符串比较:"û" = u-circumflex 或 "û" = letter-u + combining-diacritical-circumflex。标签中包含特殊字符的 XML 1.1。 - Joop Eggen
此刻,我需要为一些人提供一个测试文件,以便他们测试您所粘贴的内容是否能够到达数据库,然后再到达您的浏览器。因此,Unicode 比较超出了问题的范围。 - sorin
1个回答

12

这个页面被用来测试网络浏览器,包含多种脚本的文本:https://www.kermitproject.org/utf8.html

特别地,“我能吞下玻璃而不伤身体”这句哥特文字在BMP之外: ̈, .

规范化形式和XML处理通常在数据传输时不会出现问题,因此没有特别针对这两个方面的常见样本。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接