使用C#从文档中获取纯文本

3

如何从文档中获取纯字符串,消除所有的图片、表格或图形。我将操作并创建这些文档的单词列表。因此,我需要使用C#获取文档的纯文本部分。


4
取决于文件的格式。你希望使用的是例如 .docx 格式吗? - cwap
是的,我想要处理办公室文档格式或PDF。 - gencay
2个回答

1

你可能需要了解IFilters。它们是大多数Windows上的搜索索引器从文档中访问纯文本的方式。这里有一个教程和示例项目,其中包含源代码,您可以使用它来提取Office文档和PDF等文件的文本。

您只需要确保在计算机上安装了正确的IFilters。Microsoft提供一套免费的Office文档过滤器Adobe也提供了一个过滤器,但它非常糟糕。如果可以的话,请尝试使用FoxIt IFilter,它要好得多。


注意:FoxIt IFilter的服务器安装费用为$699,而其他过滤器都是免费的。 - Andrew Lewis
额外答案:如果您想从Palm OS数据库中提取纯文本,可以使用过滤器:http://bloggit.livejournal.com/9467.html - Andrew Lewis

0

您必须支持每个文档的特定格式;没有通用的方法可以读取所有文档格式。
例如,Microsoft Office Word 文档文件需要使用它们自己的库进行解析,而不是 OpenOffice 文档文件。


网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接