我正在使用Python 3.1,但如果需要的话我可以降级。
我有一个ASCII文件,其中包含用一种语言编写的短篇小说,该语言的字母表可以用大写和/或小写ASCII表示。 我希望:
1)尽我所能检测编码,获得某种置信度指标(取决于文件长度,对吗?)
2)使用一些免费在线服务或库自动翻译整个内容。
附加问题:如果文本是用需要2个或更多字节才能表示一个字母的语言编写的,并且字节顺序标记无法帮助我怎么办?
最后,我如何处理标点符号和杂项字符,例如空格? 它们会比某些字母更频繁地出现,对吧? 那么标点符号和字符混合的事实怎么办 - 可能会有两个逗号的表示,两个看起来像“a”的表示等等?
是的,我已经阅读了 Joel Spolsky关于Unicode的文章。请至少帮我解决其中一些问题。
谢谢!
P.S. 这不是一项作业,而是出于自我教育的目的。我更喜欢使用开源且易读的字母频率库,而不是关闭的、高效但能够很好完成任务的库。