我是第一次在这里发布帖子,试图学习一些Python技能;请对我好一点 :-)
虽然我不完全陌生于编程概念(之前曾经玩过PHP),但是转向Python对我来说有些困难。我想这主要是因为我缺乏大多数 - 如果不是全部 - 常见的“设计模式”等基本理解。
话虽如此,问题在于:我的当前项目的一部分涉及使用Beautiful Soup编写简单的爬虫。要处理的数据具有与下面所列出的相似结构。
主要问题是我无法理解如何实现以下三个步骤: 1)在循环下一个tr时跟踪当前日期(tr->td class="date"); 2)循环遍历后续tr中的项目(tr class="item"->td class="headline"和tr class="item"->td class="link"); 3)将处理后的数据存储在数组中。
此外,所有数据都将插入到数据库中,每个条目必须包含以下信息: - 日期 - 标题 - 链接
请注意,crud:ing数据库不是问题的一部分,我只是提到这一点是为了更好地说明我想要实现的目标 :-)
现在,有许多不同的方法来解决这个问题。因此,虽然对手头问题的解决方案确实非常受欢迎,但如果有人愿意详细说明您将使用的实际逻辑和策略来“攻击”这种问题,我将非常感激:-)
最后,对于这样一个新手问题,我表示抱歉。
虽然我不完全陌生于编程概念(之前曾经玩过PHP),但是转向Python对我来说有些困难。我想这主要是因为我缺乏大多数 - 如果不是全部 - 常见的“设计模式”等基本理解。
话虽如此,问题在于:我的当前项目的一部分涉及使用Beautiful Soup编写简单的爬虫。要处理的数据具有与下面所列出的相似结构。
<table>
<tr>
<td class="date">2011-01-01</td>
</tr>
<tr class="item">
<td class="headline">Headline</td>
<td class="link"><a href="#">Link</a></td>
</tr>
<tr class="item">
<td class="headline">Headline</td>
<td class="link"><a href="#">Link</a></td>
</tr>
<tr>
<td class="date">2011-01-02</td>
</tr>
<tr class="item">
<td class="headline">Headline</td>
<td class="link"><a href="#">Link</a></td>
</tr>
<tr class="item">
<td class="headline">Headline</td>
<td class="link"><a href="#">Link</a></td>
</tr>
</table>
主要问题是我无法理解如何实现以下三个步骤: 1)在循环下一个tr时跟踪当前日期(tr->td class="date"); 2)循环遍历后续tr中的项目(tr class="item"->td class="headline"和tr class="item"->td class="link"); 3)将处理后的数据存储在数组中。
此外,所有数据都将插入到数据库中,每个条目必须包含以下信息: - 日期 - 标题 - 链接
请注意,crud:ing数据库不是问题的一部分,我只是提到这一点是为了更好地说明我想要实现的目标 :-)
现在,有许多不同的方法来解决这个问题。因此,虽然对手头问题的解决方案确实非常受欢迎,但如果有人愿意详细说明您将使用的实际逻辑和策略来“攻击”这种问题,我将非常感激:-)
最后,对于这样一个新手问题,我表示抱歉。