我使用“词汇编码”一词,因为没有更好的术语。
一个单词可以说是与字母相对应的基本通信单位。Unicode试图为所有已知字母表中的每个字母分配一个数值。一个语言中的字母在另一种语言中可能是一个符号。目前,Unicode 5.1为这些符号分配了超过100,000个值。现代英语中大约有180,000个单词,据说掌握大约2,000个单词的词汇量就足以进行一般性的交流。一个“词汇编码”将对每个单词进行编码而不是每个字母,并将它们包含在一个句子中。
// An simplified example of a "Lexical Encoding"
String sentence = "How are you today?";
int[] sentence = { 93, 22, 14, 330, QUERY };
在这个例子中,字符串中的每个令牌都被编码为一个整数。这里的编码方案仅基于单词使用的一般统计排名分配了一个int值,并将一个常量分配给问号。
最终,一个单词既有拼写又有意义。任何“词汇编码”都应该保留整个句子的含义和意图,并且不应该是特定语言的。英语句子将被编码为{{link1:“...语言中立的原子意义元素...”}},然后可以用结构化的句法形式和语法结构重新组合成任何语言。
还有哪些“词汇编码”技术的例子?
如果你对单词使用统计数据的来源感兴趣:
http://www.wordcount.org