用Python比较两个网页的最简单方法是什么?

3

您好,我想使用Python脚本比较两个网页。请问如何实现?谢谢!


1
你想要比较什么?你只是想知道它们是否完全相同吗?还是它们看起来相同? - Sören
2个回答

4
首先,您需要检索两个网页。您可以使用wget,urlretrieve等工具:
Python中的wget vs urlretrieve 其次,您需要“比较”这两个页面。您可以像Chinmay所说的那样使用“diff”工具。您还可以对这两个页面进行关键词分析:
  1. 从页面中解析出所有关键词。例如:如何提取文本中使用的关键字?
  2. 可选地,使用类似以下内容的“stem”来处理单词:
    http://pypi.python.org/pypi/stemming/1.0
  3. 使用一些数学方法来比较这两个页面的关键词,例如使用词项频率-逆文件频率:http://en.wikipedia.org/wiki/Tf%E2%80%93idf ,并使用一些Python工具,例如:http://wiki.python.org/moin/InformationRetrieval

2
如果您只是想找出两个文件之间的区别,那么“比较”是什么意思?请尝试使用difflib,这是Python标准库的一部分。请注意保留HTML标签。

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接