使用Pandoc将HTML转换为DOCX

6

我试图使用以下命令将此html转换为docx:

pandoc -s input.html -o output.docx

其中,输入文件为:

<p><font color = \"#808080\">SHILPI</p>

pandoc -s -o "test.docx" -t html5 -t docx html_file

但是它失去了颜色,我只看到了文本。据我所知,我认为HTML代码是正确的,因为当我使用wkhtmltopdf将相同的HTML转换为PDF时,它会给出正确的颜色。可能出了什么问题?提前感谢。


1
你的问题是pandoc convert html with style sheet to docx的重复,但我无法让解决方案起作用。因此,我认为链接到一个不起作用的解决方案是不公平的。 - Black Frog
3个回答

12

这不是Pandoc的工作方式,它不理解CSS,只认识HTML/Markdown。它保留内容,但不保留布局等方面的信息,详情请参见语义化HTML

然而,你可以使用模板来保持输出的一致性样式。对于Word,这有点复杂,但你可以使用--reference-doc选项实现基本相同的效果。


1
谢谢您,但我的文档每次都不同,所以我不想使用参考docx。 - Shilpi Agrawal
我明白了,虽然如此,答案仍然是正确的 :) (编辑帖子以添加到语义化HTML的链接)。 - mb21

4

我现在明白了,使用pandoc -f markdown+smart -t markdown-smart命令。 - Artem Dumanov

0
这个检查功能突出显示已弃用的 HTML 标签,并提供替换它们为 CSS 或其他标签的能力。 也许最好使用这个: <p style="color: #808080">SHILPI</p>

1
不,这是错误的HTML输入,甚至在网页中都无法正常工作。 - Shilpi Agrawal
如果我没有错的话,这是一个学习所有当前符号的好例子。http://www.freecodecamp.com/challenges/bonfire-search-and-replace - user5334053

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接