7得票4回答
如何使用Vim提取与正则表达式匹配的文本?

我想用Vim从一段文本中提取一些数据。输入如下所示: 72" title="(168,72)" onmouseover="posizione('(168,72)');" onmouseout="posizione('(-,-)');">> 72" title="(180,72)"...

7得票1回答
如何提取PDF文件中表格的内容?

我想提取PDF中表格的内容,就像这样: 我使用iText java PDF库编写了这个Java程序,它可以逐行读取PDF文件的内容,但我不知道如何获取表格的内容。 import com.itextpdf.text.pdf.PdfReader; import com.itextpdf.t...

7得票1回答
在Python中从PDF中提取文本及其字体详细信息(样式、大小、颜色、斜体等)。

我希望使用Python从PDF中提取文本及其字体细节(样式、大小、颜色、斜体等)。 我需要提取文本及其元数据以进行翻译。有人能推荐一些相应的库吗?

7得票4回答
匹配连字符单词的正则表达式

如何从这个字符串中提取连字符分隔的字符串? ADW-CFS-WE CI SLA Def No SLANAME CI Max Outage Service 我只想从中提取“ADW-CFS-WE”,但是过去几个小时一直没有成功。 我使用了这个简单的正则表达式“(.*)”,但选中了上述所有字符串。

7得票3回答
使用OCR引擎tesseract提取文档时无法理解坐标。

我从tesseract中提取了一个图像文档,并成功地进行了提取。但是我无法理解提取文档的坐标。 问题描述:- 它显示坐标,但请告诉我这些坐标是否表示像素或其他内容。这些坐标有四个,类似于 title="bbox 10 13 43 46",那么10、13、43和46是什么意思?它们代表什么位...

7得票3回答
匹配对象尺寸的正则表达式

我要直接说出来:我很不擅长使用正则表达式。我尝试过用一个正则表达式来解决我的问题,但我对它们的了解甚少... 想象一下以下这些句子: "Hello blah blah. It's around 11 1/2" x 32"." "The dimensions are 8 x 10-3/5!"...

7得票4回答
在Python中检查两个字符串是否包含相同的单词集合

我正在尝试比较两个句子,看它们是否包含相同的单词集合。 例如:比较“今天是个好日子”和“是今天一个好日子”,应该返回true。 我目前正在使用collections模块中的Counter函数。 from collections import Counter vocab = {} for ...

7得票3回答
有没有一种方法可以使用Readability和Python仅提取文本而不是HTML?

我需要在服务器端运行时从随机网页中提取纯文本。我使用Google App Engine和Readability python port,其中有许多版本: 早期gfxmonk的版本,基于BeautifulSoup minvolai的版本基于gfxmonk的版本,但使用lxml而不是Beaut...

7得票2回答
基于规则的PDF账单和发票文本提取

我需要从发票和账单的pdf文件中提取文本。尽管文件的布局可能会变得复杂,但大多数情况下都是由表格填充的。我已经阅读了几十篇关于pdf格式的文章,了解它对我们的大脑来说有多容易理解,但对机器来说却很难理解其结构。我还下载了一些工具,如python的pdfminer和一些java工具,其中一些甚至...

7得票2回答
如何从图表中提取文本?

我有一份结构化表格图片的数据,数据如下: 我尝试使用以下代码从该图像中提取文本: import pytesseract from PIL import Image value=Image.open("data/pic_table3.png") text = pytesseract.i...