我尝试使用 WordToHtmlConverter 将 .doc 转换为 HTML,效果完美。
但是,当我尝试将 .docx 转换为 HTML 时卡住了。
我使用以下代码将 .docx 转换为 HTML:
我从以下链接尝试的代码:如何使用 Tika 的 XWPFWordExtractorDecorator 类?
我得到的输出结果是:
但是,当我尝试将 .docx 转换为 HTML 时卡住了。
我使用以下代码将 .docx 转换为 HTML:
我从以下链接尝试的代码:如何使用 Tika 的 XWPFWordExtractorDecorator 类?
InputStream input = TikaInputStream.get(new File("C:\\Users\\Downloads\\filename.docx"));
Parser parser = new AutoDetectParser();
StringWriter sw = new StringWriter();
SAXTransformerFactory factory = (SAXTransformerFactory)
SAXTransformerFactory.newInstance();
TransformerHandler handler = factory.newTransformerHandler();
handler.getTransformer().setOutputProperty(OutputKeys.METHOD, "html");
handler.getTransformer().setOutputProperty(OutputKeys.INDENT, "yes");
handler.setResult(new StreamResult(sw));
try {
Metadata metadata = new Metadata();
parser.parse(input, handler, metadata, new ParseContext());
String xml = sw.toString();
System.out.print("tika : "+xml);
} finally {
input.close();
}
我得到的输出结果是:
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title/>
</head>
<body/>
</html>
- 请解释我哪里做错了?
- 有没有更好的方法将.docx转换为html字符串?
感谢您的帮助,谢谢。
.docx
文件是一个存档文件(你可以用类似于7zip的工具打开并查看其内容),其中包含一堆XML文件。考虑到这一点,您应该使用能够将XML转换为HTML的工具。 - JonK