我需要开发一个用于Web日志数据挖掘的工具。
在Web应用程序日志中检索到许多特定用户会话中请求的URL序列后,我需要找出使用模式和网站用户组(簇)。
我对数据挖掘很陌生,现在正在大量查阅Google。发现了一些有用的信息,例如查询Web日志数据中的频繁模式挖掘似乎指向几乎完全相似的研究。
所以我的问题是:
在Web应用程序日志中检索到许多特定用户会话中请求的URL序列后,我需要找出使用模式和网站用户组(簇)。
我对数据挖掘很陌生,现在正在大量查阅Google。发现了一些有用的信息,例如查询Web日志数据中的频繁模式挖掘似乎指向几乎完全相似的研究。
所以我的问题是:
- 有没有基于Python的工具可以做我需要的事情或类似的东西?
- Orange toolkit能提供任何帮助吗?
- 阅读 Programming Collective Intelligence这本书能提供任何帮助吗?
- 要搜索什么,要阅读什么,使用哪些相对简单的算法最好?
我时间非常有限(只有大约一周),所以任何帮助都非常宝贵。我需要的是指导我正确方向和如何在最短时间内完成任务的建议。
先行致谢!