以下是我的回答,根据您的问题和评论,似乎您仍在学习逻辑回归。我可以推荐Advanced Data Analysis( http://www.stat.cmu.edu/~cshalizi/ADAfaEPoV/)这本书,它有一个关于逻辑回归的很好的章节,以及Elements of Statistical Learning或Introduction to Statistical Learning等教材。
我想知道coef数组表示什么意思?
系数数组是系数值的列表。这些值按照X_train数据集中列的顺序排序。例如,-1.07091645是X_train中第一列的系数值,-0.07848958是第二列的系数值,依此类推。
因此,根据您的评论,方程式将变为:
-1.07091645*f1 + -0.07848958*f2 + 0.66913624*f3 + 0.43500273*f4
我们能用这些coef * features进行排名吗?
我猜您正在尝试对特征的重要性进行排名,如果我误解了您的问题,请指出,我会相应地编辑帖子。
首先,确保您使用的变量是可比较的非常重要。例如,假设您数据集中的前两个变量是年龄(以年为单位)和收入(以美元为单位)。
这意味着年龄增加一岁会将结果变量减少-1.07091645,而收入增加一美元会将结果变量降低0.07848958。现在,一岁的增加效应要比一美元的增加效应大得多,但是年龄(一年)的单位增加无法轻易地与收入(一美元)的单位增加进行比较。
所以,在这种情况下,年龄比收入更重要吗?很难说。
解决这个问题的一种常见方法是将每个变量缩放到相同的范围。这样至少可以比较类似的步进变化。然而,这可能会使得系数值的解释更加困难,因为您不确定缩放变量中的一个单位变化对应什么。
这是否意味着最后两个特征在分类结果中最重要?
不是的。正如@Vivek Kumar在他的评论中所指出的那样,您应该看绝对值。因此,在这种情况下,如果您认为这些变量是可比较的,则按重要性的顺序为1、3、4、2。
逻辑是,即使第一个变量具有负系数,改变该变量时保持所有其他变量恒定的影响比改变变量2、3或4中的一个变量的影响更大。
某个值
后来我们可以使用这个值进行排名。 - Naufal Khalidclassifier.predict()
不是做同样的事情吗? - Vivek Kumar