将.doc/.docx转换为文本并保留表格。

3
我希望将doc/docx文件转换为文本文件。我的要求是表格应该保持原样。
我尝试过使用Python Tika。但它会将行转换为列。
例如,输入的doc/docx文件中有一个表格。

enter image description here

上面的表格会被转换成如下的文本

LANGUAGE
UNDERSTAND
LEARN

HINDI
YES
NO

MARATHI
YES
NO

ENGLISH
YES
NO

期望的输出如下(保留表格格式)
 LANGUAGE    UNDERSTAND      LEARN  
 HINDI   YES     NO
 MARATHI     YES     NO
 ENGLISH     YES     NO

请告诉我是否可能。


2
你试过 Pandoc 吗? - ilmiacs
向Apache Tika请求HTML版本而不是纯文本版本,然后使用自定义逻辑转换表格,将其余部分正常转换为文本? - Gagravarr
1个回答

6

如@ilmiacs所建议,pandoc可以为您完成此操作。
使用python需要安装pypandoc
测试文档:

在此输入图片描述

import pypandoc
print(pypandoc.convert_file("Untitled 1.docx", "plain+simple_tables", format="docx", extra_args=(), encoding='utf-8', outputfile=None))

给你:

enter image description here

当然,你也可以选择使用subprocess来将其输入到命令行中。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接