我被委派找到一种将大量.docx文件转换为docbook 5的方法。目前,我们在openoffice中打开文件并保存为docbook。这是一项耗时的任务,但我相信有更好的方法。然后,这些文件将进一步处理为我们的自定义relax NG模式。因此,这种转换不需要完美无缺。我已经四处寻找,并将继续调查一些线索,但没有找到任何有用的东西。
看着将doc/docx转换为语义HTML,他们建议使用upCast,但这似乎不适合我的需求。
我正在寻找一些免费可用的东西,可以从命令行使用。最终,我想批处理我们的文件。我已经包括了Linux、Python和Java标签,因为这些是我最熟悉的环境,但为了找到正确的解决方案,我愿意弯曲。我正试图做一些研究,然后再去重新发明轮子。
看着将doc/docx转换为语义HTML,他们建议使用upCast,但这似乎不适合我的需求。
我正在寻找一些免费可用的东西,可以从命令行使用。最终,我想批处理我们的文件。我已经包括了Linux、Python和Java标签,因为这些是我最熟悉的环境,但为了找到正确的解决方案,我愿意弯曲。我正试图做一些研究,然后再去重新发明轮子。