最新 'text-extraction' 问题

关联标签

20得票8回答

从HTML中提取文本的Java方法

我正在编写一个程序，用于下载HTML页面并选择其中一些信息，并将其写入另一个文件中。我想提取在段落标签之间的信息，但是我只能得到段落的一行。我的代码如下：FileReader fileReader = new FileReader(file); BufferedReader buffRd = ...

javahtmlscreen-scrapinghtml-content-extractiontext-extraction

11得票3回答

有没有一种方法可以使用JS获取渲染页面上的所有文本？

有没有一种（对用户不显眼的）JavaScript 方法可以获取页面上的所有文本？我知道可以获取HTML并解析它，移除所有标签等操作，但我想知道是否有一种方法可以从已经呈现的页面获取文本。为了澄清，我不想从所选内容中抓取文本，而是想获取整个页面的文本。谢谢！

javascripttexttext-extraction

12得票1回答

PDF是如何存储文本的？

我尝试更好地了解PDF是如何存储文本的。一般而言，当从MS Word（或我的情况下SQL Server Reporting Services）这样的应用程序创建PDF时，PDF如何存储文本？我希望在这种特定情况下生成的文档不会像从图像创建原始PDF文档那样进行OCR处理。为了更加详细地了解...

pdfpdf-generationtext-extraction

22得票11回答

从HTML中提取文本的正则表达式

我希望从一个常规的HTML页面中提取所有文本（无论是否显示）。我想要删除任何HTML标签任何JavaScript 任何CSS样式是否有一个或多个正则表达式可以实现这一点？

htmlregexhtml-content-extractiontext-extraction

7得票4回答

如何使用Vim提取与正则表达式匹配的文本？

我想用Vim从一段文本中提取一些数据。输入如下所示： 72" title="(168,72)" onmouseover="posizione('(168,72)');" onmouseout="posizione('(-,-)');">> 72" title="(180,72)"...

vimtextextracttext-extraction

50得票2回答

使用JavaScript从PDF文件中提取文本

我希望能够使用客户端JavaScript从PDF文件中提取文本，而不使用服务器。我已经在以下链接中找到了JavaScript代码：extract text from pdf in Javascript和http://hublog.hubmed.org/archives/001948.html以...

javascriptpdftext-extractionpdf.js

16得票7回答