22得票2回答
创建出色的解析器 - 从HTML/博客中提取相关文本

我正在尝试创建一个通用的HTML解析器,可在博客文章上很好地工作。我想将我的解析器指向特定条目的URL,并获取帖子本身的干净文本。我的基本方法(来自Python)是使用BeautifulSoup / Urllib2的组合,这还可以,但它假设您知道博客条目的正确标记。有没有更好的想法? 以下是...

241得票11回答
提取正则表达式匹配的部分

我想要一个正则表达式来从HTML页面中提取标题。目前我有这个: title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replac...

7得票2回答
BeautifulSoup - 轻松获取无HTML标签内容的方法

我正在使用这段代码来查找页面中所有有趣的链接: soup.findAll('a', href=re.compile('^notizia.php\?idn=\d+')) 它的功能很好。不幸的是,在那个a标签里有很多嵌套标签,比如font、b和其他不同的东西...我想要的只是纯文本内容,没有...

165得票10回答
如何使用php从html中提取img src、title和alt?

我想创建一个页面,其中列出了我网站上所有图像的标题和替代表示形式。 我已经编写了一个小程序来查找和加载所有HTML文件,但现在我卡在如何从这个HTML中提取src,title和alt。<img src="/image/fluffybunny.jpg" title="Harvey the ...

16得票3回答
如何在R中读取和解析网页内容

我想在R中阅读URL(例如,http://www.haaretz.com/)的内容。我想知道如何做到这一点。

68得票9回答
在iPhone上解析HTML

请问有没有人能够推荐一个用于解析HTML的C或Objective-C库?它需要能够处理一些不太符合标准的HTML代码。 是否存在这样的库,或者我最好尝试使用正则表达式来解析HTML?

7得票2回答
如何使用C++/Qt解析HTML?

我该如何解析以下HTML? <body> <span style="font-size:11px">12345</span> <a>Hello<a> </body> 我想从www.testtest.com的style...

16得票6回答
有没有类似于readability.js的Python工具?

我正在寻找一个与Arc90的readability.js大致相当的Python包/模块/函数等。 http://lab.arc90.com/experiments/readability http://lab.arc90.com/experiments/readability/js/rea...

8得票2回答
在Excel VBA中使用MSXML2.XMLHTTP从网站提取大量文本数据

我正尝试从finance.yahoo.com下载数千只股票的历史股价数据。该网站在单个页面上仅显示60天的数据,因此我必须循环遍历我要下载的时间段以及不同证券的循环。我已经使用了以下代码来访问相关页面。 Set httpObject = CreateObject("MSXML2.XMLHTT...

153得票11回答
如何使用BeautifulSoup只提取可见的网页文本?

基本上,我想使用BeautifulSoup仅获取网页上的可见文本。例如,这个网页是我的测试案例。我主要只想获取正文内容和一些选项卡名称。我尝试了这个SO问题中的建议,但返回了很多我不想要的<script>标签和HTML注释内容。我无法确定函数findAll()所需的参数,以便仅获取...