Lua - 从文件中读取一个UTF-8字符

Question

Lua - 从文件中读取一个UTF-8字符

5

是否可能从文件中读取一个UTF-8字符？

使用file:read(1)会返回奇怪的字符，当我打印它时。

function firstLetter(str)
  return str:match("[%z\1-\127\194-\244][\128-\191]*")
end

该函数从字符串 str 中返回一个 UTF-8 字符。我需要以这种方式读取一个 UTF-8 字符，但是要从输入文件中读取（不想通过 file:read（“*all”）将某个文件读入内存）。

与此帖子非常相似的问题：使用 Lua 提取 UTF-8 字符串的第一个字母

- Hrablicky

1

一种相当直接但肯定不太受欢迎的方法是真正“解析字节（1..6）并将它们转换为UTF-32值”。在某些情况下，使用UTF-32可以使事情变得更容易，具体取决于您要做什么。 - BitTickler

在手动逐个读取字符的同时执行该函数的操作？虽然这样会导致您多读一个字符，因此您需要倒带。 - Etan Reisner

我即将创建一个能够读取捷克字符的排版校正器，所以我将阅读输入文件，查找错误并进行更正。但是由于Lua无法识别这些字符，因此它无法处理。在Zero Brane Studio中读取的文本如下：链接。当我对比两者的第一个字符时，它们不匹配。 - Hrablicky

3个回答

0

在UTF-8编码中，一个字符所占用的字节数由该字符的第一个字节决定，根据以下表格确定（取自RFC 3629：）。

Char. number range  |        UTF-8 octet sequence
   (hexadecimal)    |              (binary)
--------------------+---------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

如果第一个字节的最高位是“0”，则该字符只有一个字节。如果最高位为“110”，则该字符有2个字节，以此类推。

然后，您可以从文件中读取一个字节，并确定需要读取多少个连续字节才能读取完整的UTF-8字符：

function get_one_utf8_character(file)

  local c1 = file:read(1)
  if not c1 then return nil end

  local ncont
  if     c1:match("[\000-\127]") then ncont = 0
  elseif c1:match("[\192-\223]") then ncont = 1
  elseif c1:match("[\224-\239]") then ncont = 2
  elseif c1:match("[\240-\247]") then ncont = 3
  else
    return nil, "invalid leading byte"
  end

  local bytes = { c1 }
  for i=1,ncont do
    local ci = file:read(1)
    if not (ci and ci:match("[\128-\191]")) then
      return nil, "expected continuation byte"
    end
    bytes[#bytes+1] = ci
  end

  return table.concat(bytes)
end

- hugomg

0

您需要读取字符，以便您匹配的字符串始终具有四个或更多个字符（这将使您能够应用您引用的答案中的逻辑）。如果匹配并删除UTF-8字符后长度小于len，则您可以从文件中读取4-len个字符。

ZeroBrane Studio在打印到输出面板时用[SYN]字符替换无效的UTF-8字符（如屏幕截图所示）。此博客文章描述了在Lua中检测无效的UTF-8字符及其在ZeroBrane Studio中处理的逻辑。

- Paul Kulchenko

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Egor Skriptunoff · Accepted Answer

3

function read_utf8_char(file)
  local c1 = file:read(1)
  local ctr, c = -1, math.max(c1:byte(), 128)
  repeat
    ctr = ctr + 1
    c = (c - 128)*2
  until c < 128
  return c1..file:read(ctr)
end

- Egor Skriptunoff

2

这是对问题的确切回答，但没有解释就不是一个好的答案。 - Tom Blodget

@TomBlodget - 你的判断是错误的：正如你所看到的，没有人要求我对我的答案进行任何澄清。看起来你把人们当作愚蠢的生物，所以一切都必须详细解释。相反，我认为人们足够聪明。当然，如果有人告诉我他不清楚我的答案的哪个部分，我很乐意给出额外的解释。 - Egor Skriptunoff

@TomBlodget - "你的观众比你想象的要聪明。"（摘自Chuck Palahniuk的13个写作技巧，第二条建议） - Egor Skriptunoff

谢谢，我当然理解这个想法，但对于这种情况它不起作用。当我使用这个函数一次时，它仍然像图片中的SYN一样返回，而当我尝试将这个第一个UTF8字符与ľ（原始文本中的第一个字符）进行比较时，它返回false。但是谢谢你，它似乎是非常优雅的解决方案，不知道为什么它不起作用。 - Hrablicky

1

@EgorSkriptunoff：Stackoverflow的用户并不愚蠢，但仅凭代码回答很难评估其质量。在这种特定情况下，如果不了解UTF-8格式的细节，就很难知道答案是如何工作的。你应该说第一个字节可以确定连续字节数量。 - hugomg

显示剩余3条评论