有没有办法将.ppt文件转换为.pptx文件?
目标:我需要从.ppt文件中提取表格中的文本(包括列名如姓名、地址、联系电话、电子邮件等)。为此,我采用了以下方法:
我将.ppt文件转换为pdf文件,然后使用PDFminer从pdf文件中提取数据。从pdf中提取的文本没有使用任何分隔符进行分割,因此很难区分表格中的名称和其他字段。
我正在尝试的解决方案:
- 将.ppt文件转换为.pptx文件
- 解析.pptx文件的xml以获取格式化的文本
我卡在了将文件格式从.ppt转换为.pptx的第一步上。我无法找到在Python中将.ppt文件格式转换为.pptx格式的解决方案。