I希望您能够提供一种方法来去除变音符号和文本中的其他字母标记,并以适合文本搜索索引的方式简化它。
为了去除变音符号,我已经找到了以下方法: 我想要一个通用的解决方案,与语言无关。(此外,这个参考列表可能对某些人有用。)
去除变音符号可以处理äöüò等。但我还想要:
ø → o Я → R Ł → L ɲ → n æ → a (它也可以是“ae”,但在我的情况下,“a”更合理,因为我还想用“a”替换“ae”)
例如,我想索引名称Røyksopp,有时也出现为Röyksopp,只需在简化名称Royksopp下进行即可。或者KoЯn应该是KoRn。
为了去除变音符号,我已经找到了以下方法: 我想要一个通用的解决方案,与语言无关。(此外,这个参考列表可能对某些人有用。)
去除变音符号可以处理äöüò等。但我还想要:
ø → o Я → R Ł → L ɲ → n æ → a (它也可以是“ae”,但在我的情况下,“a”更合理,因为我还想用“a”替换“ae”)
例如,我想索引名称Røyksopp,有时也出现为Röyksopp,只需在简化名称Royksopp下进行即可。或者KoЯn应该是KoRn。
uconv
位于icu4c
Homebrew软件包中,但必须手动链接到/usr/local/bin
(来源)。 - nloveladyallen