系统:WIN10
IDE:ANACONDA/Jupyter Lab
语言:Python版本3.7.3
库:pandas版本1.0.1
数据源:https://grouplens.org/datasets/movielens/
数据集:movies.csv; ratings.cvs (ml-25m.zip)
我在尝试编写透视表时遇到了问题。合并的表有超过2500万个记录,我的代码一直抛出以下错误:IndexError: index 993158425 is out of bounds for axis 0 with size 993157686。
已采取的步骤:
- 测试数据框中nan值的形状并进行清理
- 在网上搜索错误代码,但未找到任何有用的信息
- 尝试使用各种方法编写透视表:.pivot和.pivot_table
- 考虑采用交叉表(crosstab)作为解决方法:这不会起作用
代码:
df1_movies = pd.read_csv('Data/movies.csv')
df1_ratings = pd.read_csv('Data/ratings.csv')
df1_main = pd.merge(df1_movies, df1_ratings, on='movieId')
table = df1_main.pivot_table(index='userId', columns='title', values='rating')
错误
IndexError: index 993158425 is out of bounds for axis 0 with size 993157686