22得票11回答
从HTML中提取文本的正则表达式

我希望从一个常规的HTML页面中提取所有文本(无论是否显示)。 我想要 删除 任何HTML标签 任何JavaScript 任何CSS样式 是否有一个或多个正则表达式可以实现这一点?

13得票6回答
基于Java的模板,提取网页信息

目前我使用Jsoup从某些第三方网页中提取特定信息(而非所有文本),我会定期执行此操作。这一方法在某些网页HTML发生变化之前是有效的,但当网页HTML发生变化时,现有的Java代码也需要进行更改,这是一项繁琐的任务,因为这些网页经常发生变化。此外,需要一个程序员来修复Java代码。以下是我感...

13得票6回答
从文件路径字符串中提取带扩展名的文件名。

我想从文件路径字符串的末尾获取文件名,例如:$text = "bob/hello/myfile.zip"; 我想要获取文件名,这可能需要将最后一个斜杠后面的所有内容作为子字符串。有谁能帮我用PHP实现这个简单的函数:$fileName = getFileName($text);

9得票6回答
使用iText从PDF文件中提取文本列

我需要使用iText从pdf文件中提取文本。 问题是:一些pdf文件包含2列,当我提取文本时,我得到一个文本文件,其中列被合并为结果(即来自两个列的文本在同一行) 这是代码: public class pdf { private static String INPUTFILE =...

7得票4回答
如何使用Vim提取与正则表达式匹配的文本?

我想用Vim从一段文本中提取一些数据。输入如下所示: 72" title="(168,72)" onmouseover="posizione('(168,72)');" onmouseout="posizione('(-,-)');">> 72" title="(180,72)"...

14得票7回答
获取字符串中的最后一个整数

我需要从包含多个整数的字符串中分离出最后一个整数。如何获得 $lastnum1 中的 23 而不是 1?$text = "1 out of 23"; $lastnum1 = $this->getEval(eregi_replace("[^* out of]&...

7得票1回答
在Python中从PDF中提取文本及其字体详细信息(样式、大小、颜色、斜体等)。

我希望使用Python从PDF中提取文本及其字体细节(样式、大小、颜色、斜体等)。 我需要提取文本及其元数据以进行翻译。有人能推荐一些相应的库吗?

7得票3回答
匹配对象尺寸的正则表达式

我要直接说出来:我很不擅长使用正则表达式。我尝试过用一个正则表达式来解决我的问题,但我对它们的了解甚少... 想象一下以下这些句子: "Hello blah blah. It's around 11 1/2" x 32"." "The dimensions are 8 x 10-3/5!"...

11得票3回答
有没有一种方法可以使用JS获取渲染页面上的所有文本?

有没有一种(对用户不显眼的)JavaScript 方法可以获取页面上的所有文本?我知道可以获取HTML并解析它,移除所有标签等操作,但我想知道是否有一种方法可以从已经呈现的页面获取文本。 为了澄清,我不想从所选内容中抓取文本,而是想获取整个页面的文本。 谢谢!

120得票8回答
如何使用grep、正则表达式或perl提取符合某一模式的字符串

我有一个文件,看起来像这样: <table name="content_analyzer" primary-key="id"> <type="global" /> </table> <table name="conte...