得票数最多 'text-extraction' 问题 - 第2页

标签列表

关联标签

56得票2回答

如何在Python中阅读PDF？

如何使用Python读取PDF文档？我知道一种将PDF文档转换为文本的方法，但我想直接从PDF中读取内容。请问有哪些Python模块适用于PDF提取呢？

pythonpython-2.7pdftext-extraction

50得票2回答

使用JavaScript从PDF文件中提取文本

我希望能够使用客户端JavaScript从PDF文件中提取文本，而不使用服务器。我已经在以下链接中找到了JavaScript代码：extract text from pdf in Javascript和http://hublog.hubmed.org/archives/001948.html以...

javascriptpdftext-extractionpdf.js

45得票8回答

使用jQuery从批量文本中提取所有电子邮件地址

我有以下文本：sdabhikagathara@rediffmail.com, "assdsdf" <dsfassdfhsdfarkal@gmail.com>, "rodnsdfald ferdfnson" <rfernsdfson@gmail.com>, "Affdmd...

javascriptjqueryregextext-extractionemail-address

45得票3回答

从给定的坐标中提取PDF文本

我想使用Ghostscript从PDF的一个部分（使用坐标）中提取文本。有人能帮我吗？

pdfghostscripttext-extraction

42得票10回答

如何在C#中从MS Office文档中提取文本

我想使用C＃从MS Word（.doc，.docx），Excel和Powerpoint中提取文本（字符串）。请问在哪里可以找到一个免费且简单的.NET库来读取MS Office文档？我尝试使用NPOI，但我没有找到如何使用NPOI的示例。

c#ms-officetext-extraction

40得票13回答

在Java中获取URL参数并从URL中提取特定文本

我有一个URL，需要从中获取v的值。这是我的URL: http://www.youtube.com/watch?v=_RCIP6OrQrE 我该如何做呢？

javaurltext-extraction

23得票10回答

如何从相对清晰的HTML中提取文本？

我的问题有点像这个问题，但我有更多的限制：我知道文档是合理的它们非常规则（它们都来自同一来源）我想获取大约99％的可见文本大约99％的内容都是文本（它们或多或少是RTF转换为HTML）我不关心格式或段落分隔符。是否有任何工具可以执行此操作，还是我最好使用RegexBudd...

c#htmldtext-extraction

22得票5回答

如何使用Vim在文件中提取所有正则表达式匹配项？

考虑下面的例子：case Foo: ... break; case Bar: ... break; case More: case Complex: ... break: ... 假设我们想要检索符合正则表达式case \([^:]*\):的所有...

regexvimmatchtext-extraction

22得票11回答

从HTML中提取文本的正则表达式

我希望从一个常规的HTML页面中提取所有文本（无论是否显示）。我想要删除任何HTML标签任何JavaScript 任何CSS样式是否有一个或多个正则表达式可以实现这一点？

htmlregexhtml-content-extractiontext-extraction

20得票8回答

从HTML中提取文本的Java方法

我正在编写一个程序，用于下载HTML页面并选择其中一些信息，并将其写入另一个文件中。我想提取在段落标签之间的信息，但是我只能得到段落的一行。我的代码如下：FileReader fileReader = new FileReader(file); BufferedReader buffRd = ...

javahtmlscreen-scrapinghtml-content-extractiontext-extraction