我正在阅读一些从维基百科获取的文本。 这段文字中包含连字符,例如此字符串:"Australia for the [[2011–12 NBL season]]"
我的目标是使用以下代码将文本转换为utf-8:
String myStr = "Australia for the [[2011–12 NBL season]]";
new String(myStr.getBytes(), "utf-8");
结果是:
Australia for the [[2011�12 NBL season]]
问题在于连字符没有被正确映射。
连字符的字节值为[-106](我不知道该怎么处理它...)。
你知道如何将它转换为utf-8编码识别的连字符吗?
我很乐意用一些通用代码替换其他特殊字符,但也需要特定的“连字符”替换代码。