我希望将doc/docx文件转换为文本文件。我的要求是表格应该保持原样。我尝试过使用Python Tika。但它会将行转换为列。例如,输入的doc/docx文件中有一个表格。 上面的表格会被转换成如下的文本 LANGUAGE UNDERSTAND LEARN HINDI YES NO MARATHI YES NO ENGLISH YES NO 期望的输出如下(保留表格格式) LANGUAGE UNDERSTAND LEARN HINDI YES NO MARATHI YES NO ENGLISH YES NO 请告诉我是否可能。
如@ilmiacs所建议,pandoc可以为您完成此操作。 使用python需要安装pypandoc。 测试文档: import pypandoc print(pypandoc.convert_file("Untitled 1.docx", "plain+simple_tables", format="docx", extra_args=(), encoding='utf-8', outputfile=None)) 给你: 当然,你也可以选择使用subprocess来将其输入到命令行中。