41得票3回答
Pandas系列(pandas.Series)中是否有类似查询方法的函数(pandas.Series.query())?

pandas.DataFrame.query() 方法在加载或绘图时,用于(预/后)筛选数据非常有用。它尤其适用于方法链。 我经常想要对一个 pandas.Series 应用相同的逻辑,例如在执行了像 df.value_counts 这样返回 pandas.Series 的方法之后。 示例 假...

41得票4回答
Pandas重置Series的索引以删除多重索引。

我有一个长这样的Series:1999-03-31 SOLD_PRICE NaN 1999-06-30 SOLD_PRICE NaN 1999-09-30 SOLD_PRICE NaN 1999-12-31 SOLD_PRICE 3.00 2000-03-...

39得票1回答
Pandas pd.Series.isin在使用set和array时的性能比较

在Python中,一般来说,判断可哈希集合的成员资格最好使用set。我们知道这是因为哈希使用使得查找的复杂度为O(1),而使用list或np.ndarray则为O(n)。 在Pandas中,我经常需要检查非常大的集合中的成员资格。我认为同样适用,即针对一个系列中的每个条目,检查其是否为set...

38得票1回答
Pandas mask / where方法与NumPy np.where方法的区别

我经常使用Pandas的mask和where方法来更新系列值,以实现更清晰的逻辑条件。然而,对于相对性能关键的代码,我注意到与numpy.where相比存在显著的性能下降。 虽然我可以接受特定情况下的这种性能差异,但我想知道: 除了inplace / errors / try-cast参...

38得票4回答
如何在pandas/numpy中将一系列数组转换为单个矩阵?

以下代码中的s是包含多个数组的pandas.Series对象。data = [[1,2,3],[2,3,4],[3,4,5],[2,3,4],[3,4,5],[2,3,4], [3,4,5],[2,3,4],[3,4,5],[2,3,4],[3,4,5]] s = pd.Ser...

37得票1回答
什么是向DataFrame添加行的最快和最有效的方法?

我有一个大数据集,需要将其转换为.csv格式,它由29列和1M+行组成。我发现随着数据框变得越来越大,向其中附加任何行都变得越来越耗时。我想知道是否有更快的方法来做到这一点,并共享代码中相关的片段。 欢迎提出任何建议。 df = DataFrame() for startID in rang...

36得票1回答
Python 重新索引导致产生NaN值

我正在使用以下代码: import pandas as pdtest3 = pd.Series([1,2,3], index = ['a','b','c']) test3 = test3.reindex(index = ['f','g','z']) 原本一切顺利,test3的索引为'a' '...

35得票36回答
用Python打印一系列质数

我在打印从一到一百的质数时遇到了问题。 我无法弄清楚我的代码有什么问题。这是我写的代码; 它打印所有奇数而不是质数:for num in range(1, 101): for i in range(2, num): if num % i == 0: ...

34得票7回答
如何使用Pandas Python获取数据框中每列的最大长度

我有一个数据框,其中大多数列都是varchar/object类型。列的长度差异很大,可以在3-1000+的范围内任意变化。现在,对于每一列,我想测量最大长度。 我知道如何计算列的最大长度。如果它是varchar,则: max(df.char_col.apply(len)) 如果它是数字...

34得票2回答
检查pandas Series是否至少有一个项大于某个值。

以下代码将打印True,因为Series至少包含一个大于1的元素。然而,它似乎有点不符合Python的风格。如果想要返回True,当Series包含一个大于特定值的数字,是否有更符合Python风格的方法? import pandas as pd s = pd.Series([0.5, 2...