Python,用于Web日志数据挖掘的频繁模式。

4
我需要开发一个用于Web日志数据挖掘的工具。
在Web应用程序日志中检索到许多特定用户会话中请求的URL序列后,我需要找出使用模式和网站用户组(簇)。
我对数据挖掘很陌生,现在正在大量查阅Google。发现了一些有用的信息,例如查询Web日志数据中的频繁模式挖掘似乎指向几乎完全相似的研究。
所以我的问题是:
  1. 有没有基于Python的工具可以做我需要的事情或类似的东西?
  2. Orange toolkit能提供任何帮助吗?
  3. 阅读 Programming Collective Intelligence这本书能提供任何帮助吗?
  4. 要搜索什么,要阅读什么,使用哪些相对简单的算法最好?

我时间非常有限(只有大约一周),所以任何帮助都非常宝贵。我需要的是指导我正确方向和如何在最短时间内完成任务的建议。

先行致谢!

2个回答

3

1&2:橙色有一个频繁模式挖掘模块,同时支持聚类。

3.我刚刚检查了这本书的内容,没有关于频繁模式挖掘的章节。不过,对于数据挖掘初学者来说,这是一本很好的书籍。它可以帮助你精确地定义问题,你会发现它非常有用。

4.你需要理解聚类、频繁模式挖掘/关联规则挖掘的输入和输出。因此,请谷歌这些算法,或者找一本好的数据挖掘教材来阅读。


谢谢你的好回答,Yin!我希望能得到更多的建议,所以还没有选择你的答案作为最佳答案。 - Igor Katson

1

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接