首先,提前感谢你的帮助。
我正在编写一个网络爬虫,用于解析HTML内容、剥离HTML标签,然后对从解析中检索到的文本进行拼写检查。
使用JSoup和Google拼写检查API,剥离HTML标签和拼写检查都没有引起任何问题。
我能够从URL获取内容,并将这些信息传递给一个byte[],最终转换成字符串,以便进行剥离和拼写检查。现在,我遇到了字符编码的问题。
例如,在解析http://www.testwareinc.com/时...
原始文本:我们已扩展我们的移动Web和移动应用测试服务。
...该页面使用ISO-8859-1编码,根据meta标记...
ISO-8859-1解析:我们已扩展我们的移动Web和移动应用测试服务。
...尝试使用UTF-8...
UTF-8解析:We�ve expanded our Mobile Web and Mobile App testing services.
问题:网页的HTML是否可能包含多种编码?如何检测?