56得票2回答
如何在Python中阅读PDF?

如何使用Python读取PDF文档? 我知道一种将PDF文档转换为文本的方法,但我想直接从PDF中读取内容。 请问有哪些Python模块适用于PDF提取呢?

50得票2回答
使用JavaScript从PDF文件中提取文本

我希望能够使用客户端JavaScript从PDF文件中提取文本,而不使用服务器。我已经在以下链接中找到了JavaScript代码:extract text from pdf in Javascript和http://hublog.hubmed.org/archives/001948.html以...

45得票8回答
使用jQuery从批量文本中提取所有电子邮件地址

我有以下文本:sdabhikagathara@rediffmail.com, "assdsdf" <dsfassdfhsdfarkal@gmail.com>, "rodnsdfald ferdfnson" <rfernsdfson@gmail.com>, "Affdmd...

45得票3回答
从给定的坐标中提取PDF文本

我想使用Ghostscript从PDF的一个部分(使用坐标)中提取文本。有人能帮我吗?

42得票10回答
如何在C#中从MS Office文档中提取文本

我想使用C#从MS Word(.doc,.docx),Excel和Powerpoint中提取文本(字符串)。请问在哪里可以找到一个免费且简单的.NET库来读取MS Office文档? 我尝试使用NPOI,但我没有找到如何使用NPOI的示例。

40得票13回答
在Java中获取URL参数并从URL中提取特定文本

我有一个URL,需要从中获取v的值。 这是我的URL: http://www.youtube.com/watch?v=_RCIP6OrQrE 我该如何做呢?

23得票10回答
如何从相对清晰的HTML中提取文本?

我的问题有点像 这个问题,但我有更多的限制: 我知道文档是合理的 它们非常规则(它们都来自同一来源) 我想获取大约99%的可见文本 大约99%的内容都是文本(它们或多或少是RTF转换为HTML) 我不关心格式或段落分隔符。 是否有任何工具可以执行此操作,还是我最好使用RegexBudd...

22得票5回答
如何使用Vim在文件中提取所有正则表达式匹配项?

考虑下面的例子:case Foo: ... break; case Bar: ... break; case More: case Complex: ... break: ... 假设我们想要检索符合正则表达式case \([^:]*\):的所有...

22得票11回答
从HTML中提取文本的正则表达式

我希望从一个常规的HTML页面中提取所有文本(无论是否显示)。 我想要 删除 任何HTML标签 任何JavaScript 任何CSS样式 是否有一个或多个正则表达式可以实现这一点?

20得票8回答
从HTML中提取文本的Java方法

我正在编写一个程序,用于下载HTML页面并选择其中一些信息,并将其写入另一个文件中。我想提取在段落标签之间的信息,但是我只能得到段落的一行。我的代码如下:FileReader fileReader = new FileReader(file); BufferedReader buffRd = ...