12得票1回答
PDF是如何存储文本的?

我尝试更好地了解PDF是如何存储文本的。一般而言,当从MS Word(或我的情况下SQL Server Reporting Services)这样的应用程序创建PDF时,PDF如何存储文本?我希望在这种特定情况下生成的文档不会像从图像创建原始PDF文档那样进行OCR处理。 为了更加详细地了解...

11得票3回答
有没有一种方法可以使用JS获取渲染页面上的所有文本?

有没有一种(对用户不显眼的)JavaScript 方法可以获取页面上的所有文本?我知道可以获取HTML并解析它,移除所有标签等操作,但我想知道是否有一种方法可以从已经呈现的页面获取文本。 为了澄清,我不想从所选内容中抓取文本,而是想获取整个页面的文本。 谢谢!

11得票6回答
从网站中提取正文内容,例如仅提取文章标题和正文文本而非所有文本。

我正在寻找可以从网站上提取文本的算法。我不是说“去掉HTML标签”,也不是指允许这样做的数百个库。 例如,对于新闻文章,我想识别标题和所有文本,但不包括评论部分等。 是否有相关算法可用?谢谢!

10得票4回答
如何从图像中检测文本区域?

我希望在使用 Tesseract OCR 引擎之前,能够通过图像检测出文本区域。当输入只包含纯文本时,引擎能够良好地工作,但是当输入的图片中包含非文本内容时,引擎就会失败。因此,我希望能够仅检测出图像中的文本内容。如果有任何想法,请提供帮助。谢谢。

10得票1回答
如何使用iTextSharp 4.1.6提取文本?

iTextSharp 4.1.6是最后一个采用LGPL许可证的版本,可以免费在商业用途中使用而不需支付许可费。 对于一些人和我来说,如何使用这个版本提取文本可能会很有趣。 有人有想法吗?

9得票6回答
使用iText从PDF文件中提取文本列

我需要使用iText从pdf文件中提取文本。 问题是:一些pdf文件包含2列,当我提取文本时,我得到一个文本文件,其中列被合并为结果(即来自两个列的文本在同一行) 这是代码: public class pdf { private static String INPUTFILE =...

9得票6回答
在PHP中从分隔字符串中提取浮点数

我希望将一串以分隔符分隔的维度值转换为浮点数。 例如: 152.15 x 12.34 x 11mm 转换为 152.15, 12.34 and 11 并将其存储在数组中,使得: $dim[0] = 152.15; $dim[1] = 12.34; $dim[2] = 11; ...

9得票4回答
提取完整单词

我有一大批真实世界的文本需要从中提取单词并输入到拼写检查器。我希望能够提取尽可能多的有意义的单词而不会有太多噪音。目前我正在使用 '[a-z]+' 提取所有字母序列。这是一个可以接受的近似值,但它还是会带来很多垃圾内容。 理想情况下,我希望有一个正则表达式(不必漂亮或高效),它可以提取所有由...

8得票4回答
Jsoup - 提取文本

我需要从以下节点中提取文本: ```html 像这样的节点文本需要被提取。 ``` <div> Some text <b>with tags</b> might go here. <p>Also there are parag...

8得票5回答
如何从A和B两人的对话中提取出仅由A说出的内容?这涉及到IT技术。

我有两个随意人物A和B之间对话的记录。 c1 <- "Person A: blabla...something Person B: blabla something else Person A: OK blabla" c2 <- "Person A: again blabla P...