如何在汉字中使用Unicode字符组合?

3

我正在尝试找到一种解决方案,使用字符组合来显示unicode中的旧字和罕见字。目前我正在将一些EPWING词典转换为文本,其中有36个不同的字符不能用普通的UTF-8表示。以下是我正在转换的一个词典的epwing gaiji到unicode映射的问题部分,在某些区域中,它有一个有趣的语法,显然是用于以不同的方式组合字符。我希望有人能够确定这个语法是什么,以及在哪里可以找到相关的文档或教程。

s/<?w=b02a>//g
s/<?w=b04b>/者/g
s/<?w=b064>/<⾱ >/g
s/<?w=b077>/<彳<匕\/匕>>/g
s/<?w=b07c>/<山\/⺀>/g
s/<?w=b12e>//g
s/<?w=b155>/</>/g
s/<?w=b156>/<\/>/g
s/<?w=b157>/<\/\/>/g
s/<?w=b158>/<こ[1]/と|ヿ>/g
s/<?w=b16f>/<㗢>/g
s/<?w=b170>/<㗥>/g
s/<?w=b171>/ଏ/g
s/<?w=b175>/lb/g
s/<?w=b22a>//g
s/<?w=b234>/ff/g
s/<?w=b25e>/㯌/g
s/<?w=b271>/<扌 晉>/g
s/<?w=b36b>//g
s/<?w=b373>//g
s/<?w=b42c>//g
s/<?w=b434>/<已\/大>/g
s/<?w=b438>//g
s/<?w=b43a>//g
s/<?w=b43f>/<㇀/丶>/g
s/<?w=b440>//g
s/<?w=b45a>/<?>/g
s/<?w=b45b>/<|>/g
s/<?w=b53d>/<?>/g
s/<?w=b53e>/<?>/g
s/<?w=b540>/<o>/g
s/<?w=b537>/<ト モ>/g
s/<?w=b541>/<一/>/g
s/<?w=b544>/<?>/g
s/<?w=b546>/<[r45]卐>/g
s/<?w=b55f>/*/g

我知道这一行应该表示彳作为一个左垂直部首,上面堆叠着另外一个匕作为字符的右垂直部分:

s/<?w=b077>/<彳<匕\/匕>>/g

这个也很明显,它是一个旋转45度的卐符号:
s/<?w=b546>/<[r45]卐>/g

注意:?w=后面的四个十六进制代码是对应于Unicode的epwing gaiji的标识符。
感谢您的时间。
1个回答

4
请参见Unicode标准第12.2节,表意描述字符。它讨论了您的确切情况。
不幸的是,您可能会发现针对您正在尝试做的事情的软件支持实际上是不存在的。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接