我希望能够读取办公文档的内容(用于自定义爬虫)。
需要可读取的办公版本为2000至2007年。我主要想爬取Word、Excel和PowerPoint文档。
我不想检索格式,只需要其中的文本。
爬虫基于lucene.NET,如果有帮助的话是用c#编写的。
我已经使用iTextSharp解析PDF文件了。
这里有一篇由Krishnan LN撰写的关于c-charpcorner的小文章,提供了使用Word主要互操作程序集获取Word文档中文本的基本代码。
基本上,您可以从Word文档中获取“WholeStory”属性,将其粘贴到剪贴板上,然后在转换为文本格式的同时从剪贴板中提取它。 剪贴板步骤可能是为了去除格式。
对于PowerPoint,您需要执行类似的操作,但需要循环浏览幻灯片,然后对于每个幻灯片循环浏览形状,并在每个形状中获取“TextFrame.TextRange.Text”属性。
对于Excel,由于Excel可以是OleDb数据源,因此最简单的方法是使用ADO.NET。 这里有一篇Laurent Bugnion的好文章,介绍了这种技术。