我有一个多类分类器,使用Sklearn库提供的LinearSVC模型进行训练。
该模型提供了decision_function方法,我使用numpy库函数来正确解释结果集。
但是,我不明白为什么这个方法总是试图将概率总和(在我的情况下为1)分配给每一个可能的类别。
我预期我的分类器会有不同的行为。
我的意思是,例如,假设我有一个像这样的短文本:
"There are a lot of types of virus and bacterias that cause disease."
但是我的分类器是用三种类型的文本进行训练的,比如说“数学”,“历史”和“技术”。因此,当我尝试对其进行分类时,每个题目都有一个非常接近于零的概率(因此远不到1的总和)。
是否有更合适的方法或模型来获得我刚才描述的结果?
我是否错误地使用了decision_function
?
有时,您可能会有一些与用于训练分类器的任何主题都无关的文本,反之亦然,可能会有一个主题的概率超过1。
我认为我需要在这些问题上找到一些线索(文本分类,非二元分类等)。
非常感谢您提前的帮助!