将Word (.docx) 转换为Docbook

9
我被委派找到一种将大量.docx文件转换为docbook 5的方法。目前,我们在openoffice中打开文件并保存为docbook。这是一项耗时的任务,但我相信有更好的方法。然后,这些文件将进一步处理为我们的自定义relax NG模式。因此,这种转换不需要完美无缺。我已经四处寻找,并将继续调查一些线索,但没有找到任何有用的东西。
看着将doc/docx转换为语义HTML,他们建议使用upCast,但这似乎不适合我的需求。
我正在寻找一些免费可用的东西,可以从命令行使用。最终,我想批处理我们的文件。我已经包括了Linux、Python和Java标签,因为这些是我最熟悉的环境,但为了找到正确的解决方案,我愿意弯曲。我正试图做一些研究,然后再去重新发明轮子。

考虑查看OpenOffice API来编写打开和另存为的脚本吗? - Thorbjørn Ravn Andersen
1
我已经编辑了你的问题并从中删除了很多内容。虽然你在这里已经有一段时间了,但请查看[FAQ],因为不应该添加签名,而且你的PS是主观的,几乎是一个不同的问题。请查看我的编辑,并检查你的问题是否仍然完整。 - Trufa
这是Trufa,感谢您的编辑。我想我比熟悉电子邮件交流更熟悉stackoverflow。@Thorbjørn Ravn Andersen,我还没有考虑过这可能是一个可行的解决方案。 - matchew
3个回答

8

有风险获得 SX 的考古学家徽章,答案应包括对 Pandoc 的引用。这不依赖于开放办公室。

pandoc -f docx -t docbook -o newdocbook.dbk --standalone original.docx


7
有几种方法可以编写脚本,包括使用外部脚本和OpenOffice内的脚本。以下链接提供了一些示例: 上述链接中有些并未使用Java或Python,但是原则仍然适用,并且脚本通常足够简短,可以进行移植(第一个示例是用Ruby编写的,但由于其简单性,它是我个人最喜欢的)。

谢谢,由于某种原因,我选择了Python解决方案。http://mail.python.org/pipermail/python-announce-list/2006-May/004951.html - matchew

3

感谢您的快速回复,今天早上我花了一些时间在这个问题上,但是在正确配置所有内容后,它仍然无法支持docx和/或xml。 - matchew

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接