10得票5回答
如何使PyPI自动安装依赖项

我如何在PyPI上发布一个包,使得所有依赖项都能被自动安装,而不是用户手动安装? 我使用install_requires在setup.py中指定依赖项,如下所示:setuptools.setup(name='myPackage', version='1.0', package...

28得票4回答
对分类变量进行一位有效编码,同时对连续变量进行缩放

我感到困惑,因为如果你先使用OneHotEncoder再使用StandardScaler,会有问题,因为缩放器也会对之前由 OneHotEncoder转换的列进行缩放。有没有一种方法可以同时执行编码和缩放,然后将结果拼接在一起呢?

7得票2回答
对于交叉列的一致ColumnTransformer

我想要始终使用sklearn.compose.ColumnTransformer(不是并行的,所以第二个转换器应该在第一个之后执行)以此方式交叉列列表: log_transformer = p.FunctionTransformer(lambda x: np.log(x)) df = pd....

14得票1回答
为什么GridSearchCV在执行过程中超过50%的时间用于“thread.lock”对象的“acquire”方法?

最近我在调整一些机器学习流程。我决定利用我的多核处理器。我使用参数n_jobs=-1运行了交叉验证。我还对它进行了剖析,令我惊讶的是:排名第一的函数是:{method 'acquire' of 'thread.lock' objects} 我不确定这是否是因为我在Pipeline中进行的操作导...

26得票2回答
如何在scikit-learn中对支持向量机(SVM)应用标准化?

我正在使用scikit-learn的当前稳定版本0.13。 我正在使用类sklearn.svm.LinearSVC将线性支持向量分类器应用于一些数据。 在scikit-learn文档的预处理章节中,我读到了以下内容:   许多学习算法目标函数中使用的元素(例如支持向量机的RBF核或线性模...

12得票2回答
使用sklearn的DecisionTreeClassifier和DictVectorizer

我尝试使用Python和sklearn启动决策树。工作方法如下: import pandas as pd from sklearn import tree for col in set(train.columns): if train[col].dtype == np.dtype(...

9得票3回答
Python中更快的kNN分类算法

我想从头开始编写自己的kNN算法,原因是我需要加权特征。问题是,尽管删除了for循环并使用内置的numpy功能,但我的程序仍然非常慢。 有人能建议一种加速的方法吗?我不使用np.sqrt来计算L2距离,因为这是不必要的,实际上会使速度变慢。 class GlobalWeightedKNN:...

9得票2回答
Sklearn 凝聚层次聚类 自定义相似度函数

我希望使用聚类算法进行聚类,需要使用自定义的距离度量(即亲和力),因为我想通过序列相似性而不是像欧几里德距离这样没有实际意义的距离来对整数序列进行聚类。 我的数据大致如下: >> dat.values array([[860, 261, 240, ..., 300, 241...

14得票4回答
抑制sklearn.metrics.plot_confusion_matrix中的科学计数法

我试图美观地绘制混淆矩阵,因此我遵循了scikit-learn的新版本0.22中内置的绘制混淆矩阵函数。然而,我的混淆矩阵值之一是153,但在混淆矩阵图中出现为1.5e + 02: 根据scikit-learn的文档,我发现了一个名为values_format的参数,但我不知道如何操作此参...

37得票5回答
Scikit-learn凝聚聚类链接矩阵

我正在尝试绘制一个完全链接的 scipy.cluster.hierarchy.dendrogram,并发现scipy.cluster.hierarchy.linkage比sklearn.AgglomerativeClustering慢。 然而,sklearn.AgglomerativeClu...