在Python中能否读取Word文件(.doc/.docx)?

3
我希望创建一个验证工具;
有没有人能帮我使用Python读取.doc/.docx文档,以便搜索和比较文件内容。

可能是从Python中的MS Word文件提取文本的重复问题。 - Amir Ali Akbari
2个回答

8

是的,这是可能的。LibreOffice(至少)有一个命令行选项来转换文件,非常有效。使用它将文件转换为文本。然后按照常规操作将文本文件加载到Python中。

这对我在LibreOffice 4.2 / Linux上运行良好:

soffice --headless --convert-to txt:Text /path_to/document_to_convert.doc

我尝试了几种方法(包括odt2txt、antiword、zipfile、lpod、uno等)。上述的soffice命令是第一个简单易用且没有错误的方法。这个问题讲解如何在ask.libreoffice.org上使用过滤器来处理soffice

您可能还想使用“--outdir”参数。 - markling

2

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接