如何在Perl中将带重音符号、变音符号等的字母转换为它们的ASCII对应字符?

16

我正在使用Perl编写一个处理文档的程序,其中许多文档都包含像ä, ö, ü, é等字符(大小写均有)。我想将它们替换为ASCII对应字符a, o, u, e等。在Perl中应该如何实现?

其中一种解决方案是创建一个哈希表,将umlaut和重音字符作为键,ASCII对应字符作为值,但这需要我列出所有umlaut和重音字符的列表,而我没有这个列表,如果我自己列出这个列表,我肯定会错过很多字符,因为我不熟悉所有可能带有umlaut、重音和其他变音符号的字符。


3
试图去除重音符号几乎总是错误的做法。我猜你想知道如何在Perl中匹配带有重音符号的字符串?(原文链接:https://dev59.com/PWs05IYBdhLWcg3wIOfS) - daxim
我认为 Text::Unidecode 模块描述的第一段已经很好地定义了潜在的使用情况。这不仅仅是关于排序。 - raina77ow
感谢所有的回答。Text::Unidecode 正是我所寻找的! - bodacydo
这将在希腊语上失败。 - user1142217
4个回答

28

通常情况下,如果你遇到一个很可能不仅仅是你自己的问题,那么在CPAN上已经有了解决方案。在这种情况下,它被称为Text::Unidecode

use warnings;
use strict;
use utf8;
use Text::Unidecode;
print unidecode('ä, ö, ü, é'); # will print 'a, o, u, e'

3

Text::Unidecode

请注意免责声明,但如果您只有带有变音符号的拉丁文本,则可能正是您所需要的。


1

使用s///(=搜索和替换)代替m//(=匹配)

例如:$name =~ s/\x00c0/A/g;


0
我写了这个子程序,然后将每个单词输入其中。这可能会很慢。
sub store_utf82_encoding{
##see file UTF8vowels.txt
#converts  UTF8 Euro vowels to nearest English equivant  

  my $name=$_[0];
  $name =~m/\x00c0/A/g; #Agrav
  $name =~m/\x00c1/A/g; # Aacute
  $name =~m/\x00c2/A/g; # Acap
  $name =~m/\x00c3/A/g; # Atilde
  $name =~m/\x00c4/A/g; # Auml
  $name =~m/\x00c5/A/g; # Aring
  $name =~m/\x00c6/AE/g; # AE
  $name =~m/\x00c7/Ch/g; # Ccedilla
  $name =~m/\x00c8/E/g; #Egrav
  $name =~m/\x00c9/E/g; # Eacute
  $name =~m/\x00ca/E/g; # Ecap
  $name =~m/\x00cb/E/g; # Euml
  $name =~m/\x00cc/I/g; # Igrav
  $name =~m/\x00cd/I/g; # Iacut
  $name =~m/\x00ce/I/g; # Icap
  $name =~m/\x00cf/I/g; # Iuml
  $name =~m/\x00d0/Th/g; #CapEth
  $name =~m/\x00d1/NY/g; # Ntild
  $name =~m/\x00d2/O/g; # Ograv
  $name =~m/\x00d3/O/g; # Oacute
  $name =~m/\x00d4/O/g; # Ocap
  $name =~m/\x00d5/Th/g; # Otilde
  $name =~m/\x00d6/O/g; # Ouml
  $name =~m/\x00d8/O/g; # Ostroke 
  $name =~m/\x00d9/U/g; # Ugrav
  $name =~m/\x00da/U/g; # Uacute
  $name =~m/\x00db/U/g; # Ucap
  $name =~m/\x00dc/U/g; # Uuml
  $name =~m/\x00dd/Y/g; # Yacute
  $name =~m/\x00de/Th/g; # CapThorn
  $name =~m/\x00df/SS/g; # GermanUCss Ezette
  $name =~m/\x00e0/a/g; # agrav
  $name =~m/\x00e1/a/g; # aacute 
  $name =~m/\x00e2/a/g; # acap
  $name =~m/\x00e3/a/g; # atilde
  $name =~m/\x00e4/a/g; # auml
  $name =~m/\x00e5/a/g; # aring
  $name =~m/\x00e6/ae/g; # ae
  $name =~m/\x00e7/ch/g; # ccedilla 
  $name =~m/\x00e8/e/g; # egrav
  $name =~m/\x00e9/e/g; # eacute
  $name =~m/\x00ea/e/g; # ecap
  $name =~m/\x00eb/e/g; # euml
  $name =~m/\x00ec/i/g; # igrav
  $name =~m/\x00ed/i/g; # iacute
  $name =~m/\x00ee/i/g; # icap
  $name =~m/\x00ef/i/g; # iuml
  $name =~m/\x00f0/th/g; # lowercase eth
  $name =~m/\x00f1/ny/g; # ntilde
  $name =~m/\x00f2/o/g; # ograv
  $name =~m/\x00f3/o/g; # oacute 
  $name =~m/\x00f4/o/g; # ocap
  $name =~m/\x00f5/th/g; # otilde
  $name =~m/\x00f6/o/g; # ouml
  $name =~m/\x00f8/o/g; # ostroke
  $name =~m/\x00f9/u/g; # ugrav
  $name =~m/\x00fa/u/g; # uacute
  $name =~m/\x00fb/u/g; # ucap
  $name =~m/\x00fc/u/g; # uuml
  $name =~m/\x00fe/th/g; # lowercase thorn
  $name =~m/\x00fd/y/g; # yacute
  $name =~m/\x00ff/y/g; # yuml

return $name;

} #endsub store_utf82_encoding

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接