20得票8回答
从HTML中提取文本的Java方法

我正在编写一个程序,用于下载HTML页面并选择其中一些信息,并将其写入另一个文件中。我想提取在段落标签之间的信息,但是我只能得到段落的一行。我的代码如下:FileReader fileReader = new FileReader(file); BufferedReader buffRd = ...

11得票3回答
有没有一种方法可以使用JS获取渲染页面上的所有文本?

有没有一种(对用户不显眼的)JavaScript 方法可以获取页面上的所有文本?我知道可以获取HTML并解析它,移除所有标签等操作,但我想知道是否有一种方法可以从已经呈现的页面获取文本。 为了澄清,我不想从所选内容中抓取文本,而是想获取整个页面的文本。 谢谢!

12得票1回答
PDF是如何存储文本的?

我尝试更好地了解PDF是如何存储文本的。一般而言,当从MS Word(或我的情况下SQL Server Reporting Services)这样的应用程序创建PDF时,PDF如何存储文本?我希望在这种特定情况下生成的文档不会像从图像创建原始PDF文档那样进行OCR处理。 为了更加详细地了解...

22得票11回答
从HTML中提取文本的正则表达式

我希望从一个常规的HTML页面中提取所有文本(无论是否显示)。 我想要 删除 任何HTML标签 任何JavaScript 任何CSS样式 是否有一个或多个正则表达式可以实现这一点?

7得票4回答
如何使用Vim提取与正则表达式匹配的文本?

我想用Vim从一段文本中提取一些数据。输入如下所示: 72" title="(168,72)" onmouseover="posizione('(168,72)');" onmouseout="posizione('(-,-)');">> 72" title="(180,72)"...

50得票2回答
使用JavaScript从PDF文件中提取文本

我希望能够使用客户端JavaScript从PDF文件中提取文本,而不使用服务器。我已经在以下链接中找到了JavaScript代码:extract text from pdf in Javascript和http://hublog.hubmed.org/archives/001948.html以...

16得票7回答
PDFminer:提取带有字体信息的文本

我发现了这个问题,但是它使用命令行,我不想用subprocess来调用Python脚本并解析HTML文件以获取字体信息。 我想使用PDFminer作为一个库,我发现了这个问题,但是它们只是关于提取纯文本,没有其他信息,比如字体名称、字体大小等。

45得票8回答
使用jQuery从批量文本中提取所有电子邮件地址

我有以下文本:sdabhikagathara@rediffmail.com, "assdsdf" <dsfassdfhsdfarkal@gmail.com>, "rodnsdfald ferdfnson" <rfernsdfson@gmail.com>, "Affdmd...

7得票2回答
如何从图表中提取文本?

我有一份结构化表格图片的数据,数据如下: 我尝试使用以下代码从该图像中提取文本: import pytesseract from PIL import Image value=Image.open("data/pic_table3.png") text = pytesseract.i...

65得票4回答
C#使用PdfSharp提取PDF文本

有没有可能使用PdfSharp从PDF文件中提取纯文本?我不想使用iTextSharp因为它的许可证。