我正在尝试找到一种方法,在我的项目中将Word文档的文本解析为字符串。我有600多个Word(.doc)文件,需要获取每个文件的文本内容(如果可能的话,包括换行和制表符),并将其分配给一个字符串。
我一直在阅读关于Open XML SDK的资料,但对于看起来如此简单的东西来说,它看起来相当复杂。
Open XML SDK仅适用于2007及更新版本的格式,使用起来并不容易。
如果性能不是问题,您可以使用Word自动化让Word帮您完成此操作。大致如下:
var app = new Application();
var doc = app.Documents.Open(documentLocation);
string rangeText = doc.Range().Text;
doc.Save();
doc.Close();
Marshal.ReleaseComObject(doc);
Marshal.ReleaseComObject(app);
另一种选择是让Word将文档保存为文本文件,然后读取该文本文件。请查看此链接 - http://msdn.microsoft.com/en-us/library/microsoft.office.tools.word.document.saveas(v=vs.80).aspx
你可以看一下NPOI:
这个项目是 POI Java 项目的 .NET 版本,位于 http://poi.apache.org/。POI 是一个开源项目,可以帮助你读写 xls、doc、ppt 文件。它有广泛的应用。
查看this之前的 SO 帖子获取更多信息。
.doc
还是.docx
?.doc
是MS Word 2003格式及更早版本,我认为它们不像.docx
那样是XML文档。 - crush