如何从文档中获取纯字符串,消除所有的图片、表格或图形。我将操作并创建这些文档的单词列表。因此,我需要使用C#获取文档的纯文本部分。
你可能需要了解IFilters。它们是大多数Windows上的搜索索引器从文档中访问纯文本的方式。这里有一个教程和示例项目,其中包含源代码,您可以使用它来提取Office文档和PDF等文件的文本。
您只需要确保在计算机上安装了正确的IFilters。Microsoft提供一套免费的Office文档过滤器。Adobe也提供了一个过滤器,但它非常糟糕。如果可以的话,请尝试使用FoxIt IFilter,它要好得多。
您必须支持每个文档的特定格式;没有通用的方法可以读取所有文档格式。
例如,Microsoft Office Word 文档文件需要使用它们自己的库进行解析,而不是 OpenOffice 文档文件。