数据挖掘和基于文本的分析中的模式识别

4

我正在创建一个软件,用于转储用户在Twitter个人资料中评论和发布关于某种化妆品“XYZ”的纯文本。我已经解析了从Twitter API收到的JSON对象,并将原始数据转储到MySql数据库中。

现在我需要对这些纯文本进行分析,以获取有关化妆品“XYZ”的好评或差评等模式,并将此信息提供给另一个API,用于创建HTML中的动态可视化图表。

我完全是一个新手,在数据挖掘和基于文本的模式识别领域。如果有人能建议如何从我的数据库中的这些纯文本中使用模式识别算法来提供反馈给我的可视化图表API,我将非常感激。

6个回答

11

我非常鼓励您观看以下NLP斯坦福大学课程,尤其是:

  • 第三周-情感分析(这是您想要实现的内容)
  • 第四周-关系提取(赫斯特模式等)
  • 我认为您会发现它们是非常有价值的资源。


    3
    嗨,@user278064,请问您是否能够更新“NLP Stanford lectures”的链接?因为当前链接似乎已经过时了。谢谢。 - HW-Scientist
    1
    这不是对问题的回答,特别是因为链接现在不再可用。这就是我对这个答案进行负投票的原因。 - Jonathan Scholbach

    3
    如果您了解模式识别的基本原理:
    1. 手动创建两个集合(正向和负向)的关于您的产品的Twitter帖子。
    2. 为这些帖子定义一个度量、核函数或相似度度量。您可以使用高维二进制向量,其中每个分量表示一个单词,值1表示该单词存在,0表示不存在。您还可以为否定词(如“不”)添加特殊权重。
    3. 使用机器学习算法对手动创建的集合(类)进行分类器训练。您可以使用SVM、神经网络、最近邻分类器等。
    4. 使用训练好的分类器对新的Twitter帖子进行分类。
    这是一个高层次的基本思路。当然,有很多细节需要注意,但是在SO答案的范围之外。

    2
    这个子域名被称为“情感分析”。有大量关于这个主题的讲座和文章可供参考。但是,我目前看到的真正结果并没有令我信服。

    这个挑战的关键是要拥有良好的训练数据。制作一个工具,允许您快速浏览数据,并手动标记它为正面/中性/负面,以快速获得实质性的训练集。

    请查看斯坦福自然语言处理讲座,特别是第三周,了解整个过程的详细信息以及一些最先进的方法和技巧。


    0

    你可能想要看一下Mahout(在这种情况下,你可能需要将数据加载到HDFS中)。

    你没有非常具体地说明你的用例,文本分析不是一个容易解决的问题,但Mahout绝对是机器学习应用的一个很好的“开箱即用”工具。

    你也可以看一下这本书,它非常不错:Taming Text


    0

    我理解你的问题是需要一个分类器来区分评论是好还是坏。

    为了解决这种问题,统计方法被证明是有效的,就像垃圾邮件分类器一样。

    你可以看看贝叶斯分类器相关的项目,比如cardmagic/classifier,看看是否有帮助。


    0

    你可能想要了解Frontline Systems的产品XLMiner:http://www.solver.com/xlminer/

    它是一个Excel数据挖掘插件,具有许多内置功能。


    网页内容由stack overflow 提供, 点击上面的
    可以查看英文原文,
    原文链接