将“болно”转换为西里尔字母

3

我在我的数据库中遇到了问题,其中一些西里尔文本看起来像这样:"болно Ð±Ð°Ñ Ð°Ð¼ÑŒÐ´Ñ€ÑƒÑƒÐ»Ð¶ ч Ð"。是否有一种方法将其转换回可读格式。

我需要阅读实际上下文。


1
用了什么编码来获取它?发布原始字节数据而不是错误解码的乱码。 - Mark Tolonen
1个回答

7

根据您提供的数据,我能做的最好的翻译是这样的......看起来是西里尔文,但谷歌翻译没有什么可用的信息。它似乎是在默认的美国Windows编解码器下进行了解码,但实际上应该是UTF-8,但数据不太正确。 我正在使用Python尝试修复它:

>>> s.encode('cp1252').decode('utf8',errors='replace')
'болно ба� амьдруулж ч �'

1
在Windows-1252编码中,以下字节不对应任何字符:h81、h8D、h8F、h90和h9D。在UTF-8编码中,如果以前导字节hD1(Ñ)开头,则它们分别对应小写的西里尔字母с、э、я、ѐ和ѝ。如果以前导字节hD0(Ð)开头,则分别对应大写的Ё、Ѝ、Џ、А和Н。这些是会显示为替换字符的西里尔字母,因为原始问题没有提供确切的字节字符串,所以非法字节被简单地丢弃了。如果这是俄语,那么损坏的单词可能是“бас”(意为“和,也”)或者“бая”(意为“富有的”)。 - Crissov

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接