16得票2回答
应用sklearn.compose.ColumnTransformer后保留列顺序

我正在使用 sklearn 库中的 Pipeline 和 ColumnTransformer 模块对我的数据集进行特征工程。 最初的数据集如下: 日期 日期块编号 商店编号 商品编号 商品价格 02.01.2013 0 59 22154 999.00 03.01.2013 ...

16得票2回答
没有频率的差异pandas.DateTimeIndex

一个不规则时间序列的数据存储在pandas.DataFrame中。已设置DatetimeIndex。我需要获得索引连续条目之间的时间差。 我认为这很简单data.index.diff() 但是得到了AttributeError: 'DatetimeIndex' object has no a...

16得票1回答
model.LGBMRegressor.fit(x_train, y_train)和lightgbm.train(train_data, valid_sets = test_data)有什么区别?

我尝试了两种实现Light GBM的方法。期望它们返回相同的值,但实际上并没有。 我认为lgb.LightGBMRegressor()和lgb.train(train_data, test_data)应该返回相同的准确性,但事实并非如此。所以我想知道为什么? 用于分割数据的函数def data...

16得票9回答
Plotly缺少orca

当我使用plotly导出静态图表时,遇到了一些小问题。 Plotly没有正确地识别出我已经安装了orca,我仍然遇到了与缺失orca相关的错误。我尝试更改orca目录,但仍然无法正常工作。有人知道是什么问题吗? 我的代码: import plotly.graph_objects as g...

15得票1回答
使用多个长度不同和多个特征的时间序列时,如何为LSTM准备数据?

我有一个包含多个用户数据的数据集(nUsers)。每个用户在不同时间随机采样(每个用户的nSamples数量不同)。每个采样点具有若干特征(nFeatures)。例如: nUsers = 3 ---> 3 名用户 nSamples = [32, 52, 21] ---> 第一个用户采样了3...

15得票2回答
如何在Python Plotnine条形图中将y轴改成显示百分比 (%)?

如何使用Python的Plotnine库将y轴更改为百分比,而不是分数? 以下是条形图的最小工作示例:from plotnine import * from plotnine.data import mpg p = ggplot(mpg) + geom_bar(aes(x='manufac...

15得票2回答
比较Pandas数据框的列名

如何比较两个不同的Pandas数据帧的列名。我想要比较训练数据帧和测试数据帧,其中测试数据帧中缺少一些列?

15得票2回答
如何在 DataFrame.groupby 中基于另一列的最大值获取列的值

我有一个数据框长这样。 id YearReleased Artist count 168 2015 Muse 1 169 2015 Rihanna 3...

14得票2回答
如何将先前的运行更新到MLFlow?

我想更新之前使用MLFlow进行的运行记录,即更改/更新参数值以适应实现中的变化。 典型用例包括: 使用参数A记录运行,并在很久以后记录参数A和B。 更新先前运行的参数B的值为其默认值将会很有用。 将一个布尔标志作为参数实现模型。 更改实现以使用字符串。 现在我们需要更新先前运行的参数值,以...

14得票6回答
如何在Python Pandas中读取本地存储的ORC文件?

我可以将ORC文件类比于带有列标题和行标签包含数据的CSV文件吗?如果可以,我是否可以将其读入一个简单的pandas dataframe中?我不太熟悉像Hadoop或Spark这样的工具,但是只为了在Python中查看本地ORC文件的内容就必须要理解它们吗? 文件名是`someFile.sn...