.txt
, .csv
等)。在读取这些文件时,由于这些文件是使用不同/未知的代码页创建的,因此有时会包含垃圾内容。是否有一种方法可以自动检测文本文件的代码页?
StreamReader
构造函数中的 detectEncodingFromByteOrderMarks
对于 UTF8
和其他标记文件的 unicode 有效,但我正在寻找一种检测代码页(例如 ibm850
,windows1252
)的方法。
感谢您的回答,这是我所做的事情。
我们收到的文件来自终端用户,他们对代码页毫不了解。接收器也是终端用户,到目前为止,这就是他们对代码页的了解:代码页存在,并且很麻烦。
解决方案:
- 在记事本中打开接收到的文件,查看乱码文本。如果某个人被称为弗朗索瓦或其他什么,请利用您的人类智慧猜测一下。
- 我创建了一个小型应用程序,用户可以使用它来打开文件,并输入用户知道将出现在该文件中的文本,当使用正确的代码页时。
- 循环遍历所有代码页,并显示提供用户文本解决方案的代码页。
- 如果有多个代码页弹出,请要求用户指定更多文本。