如果您有一些文本语料库,如何从预定义的类别列表中识别所有类别并将其与情感(正面/负面写作)相关联?
我将在Python中进行此操作,但在此阶段,我不一定寻找特定于某种语言的解决方案。
让我们通过一个例子来看看这个问题,以便尝试澄清我的问题。假如我有一整个产品评论的语料库,例如:
Microsoft Xbox One 提供了令人印象深刻的图形和一个坚实的2015独家游戏列表。 目前,Microsoft控制台优于PS4,具有更好的媒体应用程序选择。 控制台的2015年秋季面板更新是明显的改进。 该控制台向后兼容大约100个Xbox 360标题,并且该列表有望增长。 Xbox One的新界面仍然比PS4更为复杂。 总体而言,在跨平台游戏的安装时间,图形和性能方面,PS4提供稍微更好的表现。 Xbox One在独立游戏的选择方面也落后于PS4。 Kinect的遗产仍然是瑕疵。 虽然在游戏机竞赛中,PS4仍然是我们总体上首选的选择,但Xbox One的重大修正和坚实的独家游戏使它成为一个引人注目的替代选择。
我有一个预定义类别列表,例如:
图形 游戏玩法 游戏选择 应用程序 性能 不相关/其他
我可以获取我的大量评论,并将其按句子分解。 对于训练数据中的每个句子,我都可以手动标记适当的类别。 问题在于一个句子中可能会有各种类别。
如果每个句子只有一个类别,则来自scikit-learn的任何分类算法都可以完成这项技巧。 在处理多类时,可以使用诸如多标签分类之类的东西。
添加情感是更棘手的部分。 识别句子中的情感是一项相当简单的任务,但如果不同标签的情感混合在一起,则变得不同。
例如:“Xbox One有很好的游戏选择,但性能比PS4差”。 我们可以识别出两个我们预定义的类别(游戏选择,性能),但我们对游戏选择有积极的情感,对性能则有消极的情感。
有什么方法可以确定文本中的所有类别(来自我们预定义的列表)及其相关联的情感?
我将在Python中进行此操作,但在此阶段,我不一定寻找特定于某种语言的解决方案。
让我们通过一个例子来看看这个问题,以便尝试澄清我的问题。假如我有一整个产品评论的语料库,例如:
Microsoft Xbox One 提供了令人印象深刻的图形和一个坚实的2015独家游戏列表。 目前,Microsoft控制台优于PS4,具有更好的媒体应用程序选择。 控制台的2015年秋季面板更新是明显的改进。 该控制台向后兼容大约100个Xbox 360标题,并且该列表有望增长。 Xbox One的新界面仍然比PS4更为复杂。 总体而言,在跨平台游戏的安装时间,图形和性能方面,PS4提供稍微更好的表现。 Xbox One在独立游戏的选择方面也落后于PS4。 Kinect的遗产仍然是瑕疵。 虽然在游戏机竞赛中,PS4仍然是我们总体上首选的选择,但Xbox One的重大修正和坚实的独家游戏使它成为一个引人注目的替代选择。
我有一个预定义类别列表,例如:
图形 游戏玩法 游戏选择 应用程序 性能 不相关/其他
我可以获取我的大量评论,并将其按句子分解。 对于训练数据中的每个句子,我都可以手动标记适当的类别。 问题在于一个句子中可能会有各种类别。
如果每个句子只有一个类别,则来自scikit-learn的任何分类算法都可以完成这项技巧。 在处理多类时,可以使用诸如多标签分类之类的东西。
添加情感是更棘手的部分。 识别句子中的情感是一项相当简单的任务,但如果不同标签的情感混合在一起,则变得不同。
例如:“Xbox One有很好的游戏选择,但性能比PS4差”。 我们可以识别出两个我们预定义的类别(游戏选择,性能),但我们对游戏选择有积极的情感,对性能则有消极的情感。
有什么方法可以确定文本中的所有类别(来自我们预定义的列表)及其相关联的情感?