在下面的代码中,我试图找到DataFrame列中最长的字符串。
根据列的长度,下面的函数(maxstr)返回短列的单个值(如预期),并返回长列的单个元素系列(我没有预料到这一点)。
任何指针都将不胜感激。
我使用了Pandas dataframe列中查找最长字符串的长度中讨论的方法。
由于数据量较大,我倾向于在处理过程中逐步显示数据框和系列信息。
函数返回列/系列中最长字符串的等效值
使用短列(n=50)进行操作,我得到了一个整数(如预期)。
使用相同的数据框(相同的数据)中的长列(n=100),我得到了一个系列(意料之外?)
在这两种情况下,我们找到了相同的整数值(但一个是作为一系列中的一个值,另一个是作为单个值)。
根据列的长度,下面的函数(maxstr)返回短列的单个值(如预期),并返回长列的单个元素系列(我没有预料到这一点)。
任何指针都将不胜感激。
我使用了Pandas dataframe列中查找最长字符串的长度中讨论的方法。
import numpy as np
import pandas as pd
由于数据量较大,我倾向于在处理过程中逐步显示数据框和系列信息。
从剪贴板读取数据框
df = pd.read_clipboard(sep='\t', index_col=[0, 1, 2, 3, 4], na_values='')
print(f'{type(df)=}')
print(f'{df.shape=}')
print(f'{df.dtypes=}')
print(f'{df.columns=}')
type(df)=<class 'pandas.core.frame.DataFrame'>
df.shape=(581, 6)
df.dtypes=CID int64
TITLE object
FIRSTNAME object
FUNCTION object
PHONE object
EMAIL object
dtype: object
df.columns=Index(['CID', 'TITLE', 'FIRSTNAME', 'FUNCTION', 'PHONE', 'EMAIL'], dtype='object')
函数返回列/系列中最长字符串的等效值
def maxstr(ser: pd.Series):
print(f'{type(ser)=}')
print(f'\n{type(ser.astype(str).str.len().idxmax())=}')
print(f'{type(ser[ser.astype(str).str.len().idxmax()])=}')
# should return a single value and not a series
return ser[ser.astype(str).str.len().idxmax()]
使用短列(n=50)进行操作,我得到了一个整数(如预期)。
short = df.head(50)
short_return = maxstr(short['CID'])
type(ser)=<class 'pandas.core.series.Series'>
type(ser.astype(str).str.len().idxmax())=<class 'tuple'>
type(ser[ser.astype(str).str.len().idxmax()])=<class 'numpy.int64'>
使用相同的数据框(相同的数据)中的长列(n=100),我得到了一个系列(意料之外?)
long = df.head(100)
long_return = maxstr(long['CID'])
type(ser)=<class 'pandas.core.series.Series'>
type(ser.astype(str).str.len().idxmax())=<class 'tuple'>
type(ser[ser.astype(str).str.len().idxmax()])=<class 'pandas.core.series.Series'>
在这两种情况下,我们找到了相同的整数值(但一个是作为一系列中的一个值,另一个是作为单个值)。
short_return == long_return.iloc[0]
True
整数值是唯一的,因此在数据框列中只出现一次
value = short_return
print(f'The value: {value=}')
print(f'{sum(short["CID"] == value)=}')
print(f'{sum(long["CID"] == value)=}')
The value: value=1937
sum(short["CID"] == value)=1
sum(long["CID"] == value)=1