GHC中的字符编码问题

Question

3

当我尝试在Haskell程序中读取纯文本文件时，出现以下错误信息：

[fromList * Exception: /path/to/file/aaa.txt hGetContents: invalid argument (Invalid or incomplete multibyte or wide character)

我通过谷歌搜索发现，通常将LANG设置为en_US.UTF-8即可解决此问题。我的语言环境已经是这样了。

不确定这是否与GHC有关。

我使用的是Ubuntu 11.10。

- atlantis

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- ehird · Accepted Answer

您确定 aaa.txt 包含有效的 UTF-8 编码吗？如果是二进制数据，您需要使用 withBinaryFile 或类似函数。如果它是另一种编码的文本，则应该使用 hSetEncoding。

例如，如果您的文本是 Latin-1 编码，则应该这样写：

hSetEncoding h latin1

这里的“h”是您的文件句柄。如果您正在从标准输入读取，则其为

hSetEncoding stdin latin1

还有一个mkTextEncoding函数，如果您已经从元数据中读取了编码，或者希望自定义处理无效的Unicode（尽管这仅在某些系统上有效），则可以使用它。

Unicode标准规定，Unicode解析器应该拒绝具有错误的字符串，并显示错误信息，而不是尝试修复它们。这是对Postel's Law的有意拒绝，理由是减少安全漏洞和不一致的解释。

如果你需要处理大量文本并且需要处理编码问题，你可能会考虑使用text库；与使用字符串相比，它通常更快，因为它使用未装箱的数组而不是链表，尽管这意味着Text值和对它们的操作必须是严格的。它还让你更加方便地配置如何响应无效的Unicode。