9得票2回答
互相关和相关系数问题

当我在MATLAB中交叉相关两个数据集a和b(每个数据集长73点)并绘制图形时,它看起来像一个有145个点的三角形。我对相关系数和这个三角形状的图表之间的关系感到困惑,该图表的范围为+/-1。这是否与Matlab Cross correlation vs Correlation Coeffic...

9得票3回答
Spark-SQL Server 连接

我们能够将Spark与SQL Server连接起来吗?如果可以,应该如何操作呢? 我是Spark的新手,希望能够将服务器与Spark连接,并且直接从SQL Server上工作,而不必上传.txt或.csv文件。请帮忙解答,谢谢。

8得票1回答
Python和Pandas - pd.Series中int32和int64的差异

我开始学习Python、NumPy和Pandas,但有一个非常基础的问题是关于大小。 请看下面的代码块: 1. 长度:6,dtype:int64 # create a Series from a dict pd.Series({key: value for key, value in z...

8得票2回答
如何使用dplyr按id分组,在数据框中筛选出某一列的前10%?

I have the following data frame: id total_transfered_amount day 1 1000 2 1 2000 3 1 3000 ...

8得票2回答
在亚马逊EC2/S3上开发数值计算应用程序的工作流程

关于在EC2/S3上部署数据处理应用程序已经写了很多,但我想知道,开发这种应用程序的典型工作流程是什么? 假设我有1TB的时间序列数据要处理,我已经成功地将其存储在S3上。我该如何编写应用程序并进行交互式数据分析以构建机器学习模型,然后编写大型程序来测试它们?换句话说,在这种情况下,人们如何...

8得票4回答
如何在词云中添加额外的停用词?

我想将某些词语添加到默认的停用词列表中,这些词语将会用于生成词云。当前代码: all_text = " ".join(rev for rev in twitter_clean.text) stop_words = ["https", "co", "RT"] wordcloud = WordC...

8得票1回答
为什么GridSearchCV模型的结果与我手动调整的模型不同?

这是我在这里的第一个问题,希望我做得没错。 我正在处理kaggle上流行的泰坦尼克号数据集,如果您想查看的话,这是教程“一个数据科学框架:实现99%的准确性”。 其中的5.2部分介绍了如何使用网格搜索和调整超参数。在我提出具体问题之前,让我与您分享相关代码; 这是使用GridSearch...

8得票2回答
嘈杂正弦时间序列中的实时峰值检测

我一直在尝试实时检测正弦时间序列数据中的峰值,但到目前为止没有成功。我似乎找不到一个实时算法,可以以合理的准确度检测正弦信号中的峰值。要么无法检测到峰值,要么会检测到沿着正弦波的无数个点作为峰值。 对于类似正弦波的输入信号,并且可能包含一些随机噪声,有什么好的实时算法呢? 作为一个简单...

8得票1回答
用Python绘制正值小提琴图

我发现小提琴图非常有用,我使用Python库'seaborn'。然而,当应用于正值时,它们几乎总是在较低端显示负值。我发现这真的很误导人,特别是在使用实际数据集时。 在seaborn的官方文档https://seaborn.pydata.org/generated/seaborn.violi...

7得票2回答
如何修复 AttributeError: 'Series' 对象没有属性 'find' 错误?

我正在尝试处理一些在线数据,但由于绘图函数中的“属性”错误而无法绘制该数据。 # Reading data from an online data sets import pandas as pd import requests, zipfile, StringIO r = requests...