如何在不保存文件的情况下从可下载的.doc文件中获取文本?

3
我正在尝试使用requests.get()请求下载一个.doc文件(虽然我听说还有其他方法 - 但它们都需要保存)。是否有任何方法可以直接从中提取文本(甚至将其转换为.txt)而不需要将其保存到文件中?我已经尝试将request.raw传递给各种转换器(例如docx2txt.process()),但我认为它们都是用于文件而不是流的。

2
无论您使用哪个第三方模块来解析.doc文件,它肯定有一种打开类似于“bytes”、“io.StringIO”等字节对象的文件的方法。 - Paul M.
3
这里有一个关于 .docx 格式的 Stack Overflow 回答:https://stackoverflow.com/a/46263156/3129414。不过对于 .doc 格式我不确定。 - arshovon
1个回答

1

脚本运行时,内存分配由Python解释器处理,但如果将内容保存到文件中,则分配的内存是不同的。本文可能对您有所帮助。

链接:文章


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接