我该在哪里获取英语UTF-8字符的完整列表?

3

我主要关注英文字符和标点符号。

我需要它用于测试数据,以便模拟API处理不同字符的方式。

我能使用Python或PHP生成它吗?


7
英语借鉴了其他语言的词汇和短语,包括它们的口音,外来词可能会嵌入英文文本中,还有许多情况下使用了你可能意想不到的字符作为单位或专有名词(例如µ既是一个单位前缀,也是µTorrent的名称),这只是其中几个案例。我不确定你希望通过排除这些情况来获得什么样的收益,需要翻译的内容就是这些。 - Fred Nurk
我其实没有考虑过希腊字母、拉丁重音等问题 - 你说得好! - significance
2
我对非常庞大的PubMed开放获取集合进行了一些语料库分析,你会惊讶于这些英文文本中使用的非ASCII Unicode代码点。其中7个最常出现的是“EN DASH”、“NO-BREAK SPACE”、“PLUS-MINUS SIGN”、“MINUS SIGN”、“EM SPACE”、“GREEK SMALL LETTER MU”、“GREEK SMALL LETTER BETA”和“GREEK SMALL LETTER ALPHA”,按照这个顺序排列。有许多来自“星际平面”的代码点,以及用于作者姓名的非拉丁文脚本。但那是高度技术性的生物医学科学论文。 - tchrist
3个回答

2

大多数英文字符只是ASCII码,但这里有一个完整的UTF-8字符列表。

这里还有另一个按字符集排序的列表。


“résumé”是英语吗?它在字典里。但是在我看来,它看起来很法国。 - S.Lott
不错 - 这两个列表在某种程度上弥补了彼此的不足之处 - 谢谢! - significance
如果您查看幻灯片4和5上显示PMC开放获取集合中非ASCII代码点频率的两个表格,您会发现英语科学文本使用了大量Unicode,其中包括不仅是字母,还有相当多的标点符号、符号和“样式”空格。 - tchrist

1

这里有一个很有用的互动表格在此处,按语言/使用方式分类


0

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接