最新 'html-content-extraction' 问题 - 第3页

关联标签

22得票2回答

我正在尝试创建一个通用的HTML解析器，可在博客文章上很好地工作。我想将我的解析器指向特定条目的URL，并获取帖子本身的干净文本。我的基本方法（来自Python）是使用BeautifulSoup / Urllib2的组合，这还可以，但它假设您知道博客条目的正确标记。有没有更好的想法？以下是...

241得票11回答

我想要一个正则表达式来从HTML页面中提取标题。目前我有这个： title = re.search('<title>.*</title>', html, re.IGNORECASE).group() if title: title = title.replac...

7得票2回答

我正在使用这段代码来查找页面中所有有趣的链接： soup.findAll('a', href=re.compile('^notizia.php\?idn=\d+')) 它的功能很好。不幸的是，在那个a标签里有很多嵌套标签，比如font、b和其他不同的东西...我想要的只是纯文本内容，没有...

165得票10回答

我想创建一个页面，其中列出了我网站上所有图像的标题和替代表示形式。我已经编写了一个小程序来查找和加载所有HTML文件，但现在我卡在如何从这个HTML中提取src，title和alt。<img src="/image/fluffybunny.jpg" title="Harvey the ...

16得票3回答

我想在R中阅读URL（例如，http://www.haaretz.com/）的内容。我想知道如何做到这一点。

68得票9回答

请问有没有人能够推荐一个用于解析HTML的C或Objective-C库？它需要能够处理一些不太符合标准的HTML代码。是否存在这样的库，或者我最好尝试使用正则表达式来解析HTML？

7得票2回答

我该如何解析以下HTML？ <body> <span style="font-size:11px">12345</span> <a>Hello<a> </body> 我想从www.testtest.com的style...

16得票6回答

我正在寻找一个与Arc90的readability.js大致相当的Python包/模块/函数等。 http://lab.arc90.com/experiments/readability http://lab.arc90.com/experiments/readability/js/rea...

8得票2回答

我正尝试从finance.yahoo.com下载数千只股票的历史股价数据。该网站在单个页面上仅显示60天的数据，因此我必须循环遍历我要下载的时间段以及不同证券的循环。我已经使用了以下代码来访问相关页面。 Set httpObject = CreateObject("MSXML2.XMLHTT...

153得票11回答

基本上，我想使用BeautifulSoup仅获取网页上的可见文本。例如，这个网页是我的测试案例。我主要只想获取正文内容和一些选项卡名称。我尝试了这个SO问题中的建议，但返回了很多我不想要的<script>标签和HTML注释内容。我无法确定函数findAll()所需的参数，以便仅获取...