SelectKBest返回的分数为NaN值

Question

SelectKBest返回的分数为NaN值

python-3.xpandasmachine-learningjupyter-notebookdata-science

4

我有一个数据集，想要使用SelectKBest和Chi2获取特征的重要性，但是SelectKBest给出的特征分数为nan。

数据文件和代码文件位于此链接。

# Path to the data file
file_path = r"D:\Data_Sets\Mobile_Prices\data.csv"

# Reading the data from the Southern Second Order file, and also passing the column names to south_data data frame
south_data = pd.read_csv(file_path)


# Printing the number of data points and the number of columns of south_data data frame
print("The number of data points in the data  :", south_data.shape[0])
print("The features of the data :", south_data.shape[1])

# Printing the head of south_data data frame
print(south_data.head())

# Check for the nulls
print(south_data.isnull().sum())

# Separate the x and y
x = south_data.drop("tss", axis = 1)
y = south_data["tss"]

# Find the scores of features
bestfit = SelectKBest(score_func=chi2, k=5)
features = bestfit.fit(x,y)
x_new = features.transform(x)

print(features.scores_)

# The output of features.scores_ is displayed as
# array([nan, nan, nan, nan, nan, nan, nan, nan, nan])

- Mokshith Sandeep

2个回答

1

'bestfit'是一个对象，调用fit方法时不需要为其分配变量。尝试：

# Find the scores of features
bestfit = SelectKBest(score_func=chi2, k=5)
bestfit.fit(x,y)
x_new = bestfit.transform(x)
print(bestfit.scores_)

或者，您可以同时调用fit和transform：

# Find the scores of features
bestfit = SelectKBest(score_func=chi2, k=5)
x_new = bestfit.fit_transform(x)
print(bestfit.scores_)

这可以解决您的问题吗？

- Matt

1

嗨，马特，我尝试了上述两种解决方案，但是都没有起作用。两种解决方案的输出如下： [nan nan nan nan nan nan nan nan nan] - Mokshith Sandeep

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Venkatachalam · Accepted Answer

你的目标变量中所有的值都是1。这就是scores_中出现nan值的原因。请验证一下你的目标变量。

以下仅供参考：

>>> from sklearn.datasets import load_digits
import numpy as np
>>> from sklearn.feature_selection import SelectKBest, chi2
>>> X, y = load_digits(return_X_y=True)
>>> X.shape
(1797, 64)
>>> feature_selector = SelectKBest(chi2, k=20)
>>> X_new = feature_selector.fit_transform(X, np.ones(len(X)) )
>>> feature_selector.scores_
array([nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan])