68得票14回答
Scikit-learn平衡子采样

我想创建N个平衡的随机子样本,用于处理我的大型不均衡数据集。是否有一种方法可以使用scikit-learn / pandas轻松实现这一点,还是我必须自己实现它?是否有代码指针可以完成此操作? 这些子样本应该是随机的,并且可以重叠,因为我将它们馈送到非常大的分类器集合中的单独分类器。 在W...

17得票3回答
Pandas数据框子抽样

我有一个从.tsv文件中加载的DataFrame。我想生成一些探索性图表,但问题是数据集太大了(约1百万行),所以在图表上有太多的点无法看出趋势。此外,绘制图表需要一段时间。 我想随机抽样10000行进行子样本处理。这应该是可重复的,以便在每次运行时生成相同的随机数序列。 这个:Sampl...

11得票3回答
在numpy数组上进行子采样/平均处理

我有一个包含浮点数的numpy数组。 如果还不存在的话,我想要一个函数来给我一个由给定数组中每x个点的平均值组成的新数组,就像子抽样(相对于插值而言)。 例如,sub_sample(numpy.array([1, 2, 3, 4, 5, 6]), 2) 得到 [1.5, 3.5, 5.5]...

7得票2回答
如何使用libjpeg将YUYV原始数据压缩为JPEG?

我正在寻找一个使用libjpeg库将YUYV格式帧保存为JPEG文件的示例。

7得票3回答
如何对二维多边形进行子采样?

我有定义英国县边缘的多边形。这些形状非常详细(每个形状有10k到20k个点),因此相关计算(点X在多边形P中吗?)非常耗费计算资源。因此,我想要“子采样”我的多边形,以获得类似的形状但更少的点数。有哪些不同的技术可以做到这一点?其中一个平凡的方法是每隔N个点取一个点(因此通过因子N进行子采样)...