我该如何使用Python从Word文档中提取图像/徽标并将它们存储在文件夹中?下面的代码可以将docx转换为html,但它无法从html中提取图像。任何指针或建议都将是极大的帮助。
最初的回答:
您可以使用python-docx2txt库将.docx文件转换为文本,并使用正则表达式从文本中提取图像的base64编码。然后,您可以使用base64解码器将其转换回图像,并将其保存到文件夹中。以下是一个示例代码片段:
profile_path = <file path>
result=mammoth.convert_to_html( profile_path)
f = open(profile_path, 'rb')
b = open(profile_html, 'wb')
document = mammoth.convert_to_html(f)
b.write(document.value.encode('utf8'))
f.close()
b.close()