最新 'data-science' 问题

关联标签

8得票2回答

我有一个包含36k行数据的数据集，想要使用pandas随机选择其中的9k行。如何完成这个任务？

7得票2回答

我已经在谷歌上全面搜索，但似乎无法找到我要找的东西。基本上，我有两个列表：一个列表包含时间戳数据，另一个列表包含相应的值。现在我的问题是：我的时间戳格式如下： ['Mon Sep 1 16:40:20 2015', 'Mon Sep 1 16:45:20 2015', 'Mon S...

8得票1回答

我已经创建了一个如下的管道（使用Keras Scikit-Learn API）. estimators = [] estimators.append(('standardize', StandardScaler())) estimators.append(('mlp', KerasRegre...

10得票1回答

我正在尝试微调一个预训练的GPT2模型。当应用相应的分词器时，我最初收到了以下错误信息：使用了pad_token，但是它还没有被设置。因此，我更改了我的代码为： GPT2_tokenizer = GPT2Tokenizer.from_pretrained("gpt2") GPT2...

13得票2回答

我正在尝试使用Python库scikit-tensor分解3D矩阵。我已经成功将我的张量（具有100x50x5的维度）分解成三个矩阵。我的问题是如何使用张量分解产生的分解矩阵重新组合初始矩阵？我想检查分解是否有任何意义。我的代码如下： import logging from scipy.io...

22得票2回答

我有一个点列表，这些点是 kmeans 算法的惯性值。为了确定最优群集的数量，我需要找到曲线开始变平的点。数据示例以下是我的值列表如何创建和填充的：sum_squared_dist = [] K = range(1,50) for k in K: km = KMeans(n_...

37得票2回答

我正在学习用Python进行数据科学，但是我的问题是我仍然不理解Spyder和Jupyter之间的区别！我希望你们能帮我理解它们之间的区别，非常感谢。

7得票1回答

我正在尝试部署一个SageMaker终端节点，但它无限期地卡在“创建”阶段。下面是我的Dockerfile和训练/服务脚本。模型训练没有任何问题。只有终端节点部署卡在“创建”阶段。以下是文件夹结构文件夹结构 |_code |_train_serve.py |_Dockerfil...

19得票9回答

简单来说，在Python中如何对一个大的Pandas数据框（可能有2,000,000行）应用分位数归一化？ PS. 我知道有一个名为rpy2的软件包可以在子进程中运行R，使用R中的分位数归一化。但事实是，当我使用以下数据集时，R无法计算出正确的结果：5.690386092696389541e...

17得票2回答

我目前正在使用Python的Scikit库执行具有线性核的多类SVM。以下是样本训练数据和测试数据：模型数据：x = [[20,32,45,33,32,44,0],[23,32,45,12,32,66,11],[16,32,45,12,32,44,23],[120,2,55,62,82,1...