我是一名新手程序员,尝试编写一个Python程序,在读取文件时遇到了以下形式的字符串:
同时,使用chardet模块中的detect函数也可以发现这个问题。
Îêåàí Åëüçè - Ìàéæå âåñíà
Ëÿïèñ Òðóáåöêîé - Ñâÿùåííûé Îãîíü
同时,使用chardet模块中的detect函数也可以发现这个问题。
chardet.detect('Îêåàí Åëüçè - Ìàéæå âåñíà'.decode('utf-8').encode('windows-1252'))
这将会返回:
{'置信度': 0.7679697235616183, '编码方式': 'windows-1251'}
在执行以下操作后,我能够得到预期的字符串。
string.decode('utf-8').encode('windows-1252').decode('windows-1251').encode('utf-8')
这将给出:
Океан Ельзи - Майже весна 和
Коррозия Металла - Война Миров
分别对应于上述字符串。
我的问题是:有没有办法检测到这样的字符串? 以下是一些其他字符串,我甚至没有找到纠正它们的方法:
Isao Sasaki - ¨¬¡Æ¨¬¡ÆAI¨¬¡Æ (另外一个告别) (¡¾¢¬Cy¨ù¡¾ AU¡Æi)
Yoon K. Lee & Salzburg Kammerp - ³»¸¶À½
⁂晉䤠圠牥潂⁹䬨牡慭牴湯捩删浥硩䴠楡⥮
Ã�Ã�óôåõá üôé ï ãÃ�ìïò Ã�ôáÃ
ìéá áðëÃ� õðüèåóç。
非常感谢您的回复。