编辑:解决方案:该问题是由于存在00a0非断空格,而不是c0a0非断空格引起的。
使用Apache POI将docx转换为纯文本后,将纯文本读入Java并尝试解析时,我遇到了以下问题。
输出:
" "
first characterequals SPACE OR TAB
false
[B@5e481248
[B@66d3c617
ARRAYTOSTRING SPACE: [32]
ARRAYTOSTRING ?????: [-62, -96]
对于代码:
System.out.println("\t\"" + line.substring(0,1) + "\"\n\tfirst characterequals SPACE OR TAB \n\t" + (line.substring(0,1).equals(" ")
|| line.substring(0,1).equals("\t") ));
System.out.println(line.substring(0,1).getBytes());
System.out.println(" ".getBytes());
System.out.println("ARRAYTOSTRING SPACE: " + Arrays.toString(" ".getBytes()));
System.out.println("ARRAYTOSTRING ?????: " + Arrays.toString(line.substring(0,1).getBytes()));
String.trim() 无法去除它。
String.replaceAll("\s", "")也无法去除它。
我正在尝试解析一份庞大的材料文档,这成为了一个重大障碍。我不知道发生了什么,也不知道该如何与其交互,请问有人能解释一下这里到底出了什么问题吗?