HTML Agility Pack是Oded提到的工具,它可以帮助您获取HTML中的纯文本,但是要在去除停用词后从网页中提取关键字,您需要做更多的工作。这个问题有一个很好的信息性答案,来自Joseph Turian:如何提取文本中使用的关键字?