得票数最多 'text-extraction' 问题

关联标签

493得票14回答

我有一个包含两个单引号字符'的字符串。在两个单引号之间的是我想要的数据。我如何编写正则表达式从以下文本中提取出"the data i want"？mydata = "some string with 'the data i want' inside";

417得票13回答

有没有Python模块可以将PDF文件转换成文本？我尝试了在Activestate中找到的一段代码，它使用了pypdf，但生成的文本没有空格，也没有用处。

396得票23回答

我想从包含数字和字母的字符串中提取数字:"In My Cart : 11 items" 我想提取数字 11。

187得票15回答

有没有人可以推荐一个用于从PDF中提取文本和图像的库/API？我们需要能够获取文档中预先已知区域内的文本，因此API需要为我们提供每个元素在页面上的位置信息。我们希望将该数据输出为xml或json格式。目前我们正在研究PdfTextStream，它看起来非常不错，但我们想听听其他人的经...

120得票8回答

我有一个文件，看起来像这样： <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="conte...

119得票6回答

我正在寻找有关如何使用Python的PDFMiner从PDF文件中提取文本的文档或示例。看起来PDFMiner更新了他们的API，所有相关的例子都包含过时的代码（类和方法已经改变）。我找到的那些使从PDF文件中提取文本任务更容易的库正在使用旧的PDFMiner语法，所以我不确定该怎么做。 ...

84得票2回答

我正在寻找一款PDF库，它可以让我从PDF文档中提取文本。我已经看过了PyPDF这个库，它可以很好地从PDF文档中提取文本。但是问题在于，如果文档中有表格，则表格中的文本将与其余部分的文本内联提取。这可能会产生一些无用且杂乱的文本部分（例如，许多数字混在一起）。我想从PDF文档中提取文本，...

73得票4回答

我有一系列文本条目-来自MySQL数据库的原始HTML。我想找到这些条目中最常见的短语（不是单个最常见的短语，并且理想情况下，不强制逐字匹配）。我的示例是Yelp.com上的任何评论，它显示给定餐厅数百条评论中的3个片段，格式为： “试试汉堡”（在44篇评论中）例如，此页面的“评论亮...

65得票4回答

有没有可能使用PdfSharp从PDF文件中提取纯文本？我不想使用iTextSharp因为它的许可证。

60得票6回答

有没有人可以推荐一些方法，以便从.doc或.docx中提取纯文本？我找到了这个，想知道是否有其他建议？