8得票2回答
如何使用pandas从数据集中随机选择行?

我有一个包含36k行数据的数据集,想要使用pandas随机选择其中的9k行。如何完成这个任务?

7得票2回答
如何使用matplotlib在python中绘制时间戳?

我已经在谷歌上全面搜索,但似乎无法找到我要找的东西。 基本上,我有两个列表:一个列表包含时间戳数据,另一个列表包含相应的值。 现在我的问题是:我的时间戳格式如下: ['Mon Sep 1 16:40:20 2015', 'Mon Sep 1 16:45:20 2015', 'Mon S...

8得票1回答
Scikit-learn - 将管道预测转换为原始值/比例

我已经创建了一个如下的管道(使用Keras Scikit-Learn API). estimators = [] estimators.append(('standardize', StandardScaler())) estimators.append(('mlp', KerasRegre...

10得票1回答
断言错误: 如果未定义填充令牌(pad_token = eos_token),则无法处理批大小大于1的情况。

我正在尝试微调一个预训练的GPT2模型。当应用相应的分词器时,我最初收到了以下错误信息: 使用了pad_token,但是它还没有被设置。 因此,我更改了我的代码为: GPT2_tokenizer = GPT2Tokenizer.from_pretrained("gpt2") GPT2...

13得票2回答
在张量分解后重新构建张量

我正在尝试使用Python库scikit-tensor分解3D矩阵。我已经成功将我的张量(具有100x50x5的维度)分解成三个矩阵。我的问题是如何使用张量分解产生的分解矩阵重新组合初始矩阵?我想检查分解是否有任何意义。我的代码如下: import logging from scipy.io...

22得票2回答
使用Python找到优化曲线上的“拐点”

我有一个点列表,这些点是 kmeans 算法的惯性值。 为了确定最优群集的数量,我需要找到曲线开始变平的点。 数据示例 以下是我的值列表如何创建和填充的:sum_squared_dist = [] K = range(1,50) for k in K: km = KMeans(n_...

37得票2回答
Spyder和Jupyter有何区别?

我正在学习用Python进行数据科学,但是我的问题是我仍然不理解Spyder和Jupyter之间的区别! 我希望你们能帮我理解它们之间的区别,非常感谢。

7得票1回答
SageMaker终端处于“创建”状态无法前进。

我正在尝试部署一个SageMaker终端节点,但它无限期地卡在“创建”阶段。下面是我的Dockerfile和训练/服务脚本。模型训练没有任何问题。只有终端节点部署卡在“创建”阶段。 以下是文件夹结构 文件夹结构 |_code |_train_serve.py |_Dockerfil...

19得票9回答
Pandas数据帧上的分位数归一化

简单来说,在Python中如何对一个大的Pandas数据框(可能有2,000,000行)应用分位数归一化? PS. 我知道有一个名为rpy2的软件包可以在子进程中运行R,使用R中的分位数归一化。 但事实是,当我使用以下数据集时,R无法计算出正确的结果:5.690386092696389541e...

17得票2回答
绘制scikit-learn(sklearn)SVM决策边界/面

我目前正在使用Python的Scikit库执行具有线性核的多类SVM。以下是样本训练数据和测试数据: 模型数据:x = [[20,32,45,33,32,44,0],[23,32,45,12,32,66,11],[16,32,45,12,32,44,23],[120,2,55,62,82,1...