train_test_split不将数据分割

Question

train_test_split不将数据分割

pythonscikit-learntrain-test-split

3

有一个数据框，总共包含14列，最后一列是目标标签，其整数值为0或1。

我定义了：

X = df.iloc[:,1:13] ---- 这包括特征值
y = df.iloc[:,-1] ------ 这包括相应的标签

两者的长度相同，X是包含13列的数据框，形状为（159880，13），y是形状为（159880，）的数组类型。

但是，当我对X、y执行train_test_split()时，该函数无法正常工作。

以下是简单的代码：

X_train, y_train, X_test, y_test = train_test_split(X, y, random_state = 0)

分离后，X_train和X_test的形状均为(119910,13)。y_train的形状是(39970,13)，而y_test的形状是(39970,)。

这很奇怪，即使定义了test_size参数，结果仍然相同。

请指导，可能出了什么问题。

import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from adspy_shared_utilities import plot_feature_importances
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

def model():
    
    df = pd.read_csv('train.csv', encoding = 'ISO-8859-1')
    df = df[np.isfinite(df['compliance'])]
    df = df.fillna(0)
    df['compliance'] = df['compliance'].astype('int')
    df = df.drop(['grafitti_status', 'violation_street_number','violation_street_name','violator_name',
                  'inspector_name','mailing_address_str_name','mailing_address_str_number','payment_status',
                  'compliance_detail', 'collection_status','payment_date','disposition','violation_description',
                  'hearing_date','ticket_issued_date','mailing_address_str_name','city','state','country',
                  'violation_street_name','agency_name','violation_code'], axis=1)
    df['violation_zip_code'] = df['violation_zip_code'].replace(['ONTARIO, Canada',', Australia','M3C1L-7000'], 0)
    df['zip_code'] = df['zip_code'].replace(['ONTARIO, Canada',', Australia','M3C1L-7000'], 0)
    df['non_us_str_code'] = df['non_us_str_code'].replace(['ONTARIO, Canada',', Australia','M3C1L-7000'], 0)
    df['violation_zip_code'] = pd.to_numeric(df['violation_zip_code'], errors='coerce')
    df['zip_code'] = pd.to_numeric(df['zip_code'], errors='coerce')
    df['non_us_str_code'] = pd.to_numeric(df['non_us_str_code'], errors='coerce')
    #df.violation_zip_code = df.violation_zip_code.replace('-','', inplace=True)
    df['violation_zip_code'] = np.nan_to_num(df['violation_zip_code'])
    df['zip_code'] = np.nan_to_num(df['zip_code'])
    df['non_us_str_code'] = np.nan_to_num(df['non_us_str_code'])
    X = df.iloc[:,0:13]
    y = df.iloc[:,-1]
    X_train, y_train, X_test, y_test = train_test_split(X, y, random_state = 0)    
    print(y_train.shape)

- Nakul Sharma

2个回答

-1

if args.mode == "train":

    # Load Data
    data, labels = load_dataset('C:/Users/PC/Desktop/train/k')

    # Train ML models
    knn(data, labels,'C:/Users/PC/Desktop/train/knn.pkl' )

- marweeen

你的回答不够清晰。请编辑以添加更多细节，帮助其他人理解它如何回答 OP 的问题。您可以在帮助中心中找到有关编写良好答案的更多信息。 - Mario

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Gambit1614 · Accepted Answer

您混淆了train_test_split的结果，应该是：

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,random_state=0)