493得票14回答
如何使用正则表达式提取子字符串

我有一个包含两个单引号字符'的字符串。在两个单引号之间的是我想要的数据。 我如何编写正则表达式从以下文本中提取出"the data i want"?mydata = "some string with 'the data i want' inside";

417得票13回答
Python模块用于将PDF转换为文本。

有没有Python模块可以将PDF文件转换成文本?我尝试了在Activestate中找到的一段代码,它使用了pypdf,但生成的文本没有空格,也没有用处。

396得票23回答
从字符串中提取一个单独的(无符号)整数

我想从包含数字和字母的字符串中提取数字:"In My Cart : 11 items" 我想提取数字 11。

187得票15回答
如何从PDF中提取文本?

有没有人可以推荐一个用于从PDF中提取文本和图像的库/API? 我们需要能够获取文档中预先已知区域内的文本,因此API需要为我们提供每个元素在页面上的位置信息。 我们希望将该数据输出为xml或json格式。目前我们正在研究PdfTextStream,它看起来非常不错,但我们想听听其他人的经...

120得票8回答
如何使用grep、正则表达式或perl提取符合某一模式的字符串

我有一个文件,看起来像这样: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="conte...

119得票6回答
使用Python中的PDFMiner提取PDF文件中的文本?

我正在寻找有关如何使用Python的PDFMiner从PDF文件中提取文本的文档或示例。 看起来PDFMiner更新了他们的API,所有相关的例子都包含过时的代码(类和方法已经改变)。我找到的那些使从PDF文件中提取文本任务更容易的库正在使用旧的PDFMiner语法,所以我不确定该怎么做。 ...

84得票2回答
使用Python进行PDF解析 - 提取格式化和纯文本

我正在寻找一款PDF库,它可以让我从PDF文档中提取文本。我已经看过了PyPDF这个库,它可以很好地从PDF文档中提取文本。但是问题在于,如果文档中有表格,则表格中的文本将与其余部分的文本内联提取。这可能会产生一些无用且杂乱的文本部分(例如,许多数字混在一起)。 我想从PDF文档中提取文本,...

73得票4回答
如何从一系列文本条目中提取常见/重要短语

我有一系列文本条目-来自MySQL数据库的原始HTML。我想找到这些条目中最常见的短语(不是单个最常见的短语,并且理想情况下,不强制逐字匹配)。 我的示例是Yelp.com上的任何评论,它显示给定餐厅数百条评论中的3个片段,格式为: “试试汉堡”(在44篇评论中) 例如,此页面的“评论亮...

65得票4回答
C#使用PdfSharp提取PDF文本

有没有可能使用PdfSharp从PDF文件中提取纯文本?我不想使用iTextSharp因为它的许可证。

60得票6回答
如何从.doc和.docx文件中提取纯文本?

有没有人可以推荐一些方法,以便从.doc或.docx中提取纯文本? 我找到了这个,想知道是否有其他建议?