我有一个数据框(DF),其中对于每个公司ID,我都有在2006年和2007年在那里工作的董事以及有关他们的两个信息(性别和年龄)。
DF <-
CompanyID Name Country ISIN Director_2006 Gender_2006 Yearold_2006 Director_2007 Gender_2007 Yearold_2007
25830 BANKxxx Austria AT000504 11734844255 M 54 11734844255 M 55
25830 BANKxxx Austria AT000504 187836811559 F 45 5524344997 F NA
25830 BANKxxx Austria AT000504 5524344997 F NA 5524354997 M 39
25830 BANKxxx Austria AT000504 5524354997 M 38 5742347684 M 38
25830 BANKxxx Austria AT000504 6613115791 M 41 40160443378 M 30
12339 BANKyyy Belgium AT034003 9855321789 M 44 9855321789 M 45
12339 BANKyyy Belgium AT034003 277520199 M NA 23779351 F 34
我有一个第二个数据框(DF2),其中每个董事ID(第一列)都具有不同年份(第二列)的经验年限(第三列)。
DF2 <-
DirectorID Year YearsExperience
11734844255 2006 0.4
11734844255 2007 1.4
187836811559 2006 1.5
5524344997 2006 2.4
5524344997 2007 3.4
5524354997 2006 1.8
5524354997 2007 2.8
5742347684 2007 3.5
40160443378 2007 4.3
9855321789 2005 2.6
9855321789 2006 3.6
9855321789 2007 4.6
277520199 2006 1.6
23779351 2007 3.2
55443322 2005 2.5
55443322 2006 3.5
我想将两个数据框的信息合并,创建一个新列,其中包含每个公司每位董事在2006年和2007年的工作经验,即Experience_2006和Experience_2007列。
因此,我期望的输出结果如下:
DF_final <-
CompanyID Name Country ISIN Director_2006 Gender_2006 YearBirth_2006 Experience_2006 Director_2007 Gender_2007 YearBirth_2007 Experience_2007
25830 BANKxxx Austria AT000504 11734844255 M 54 0.4 11734844255 M 55 1.4
25830 BANKxxx Austria AT000504 187836811559 F 45 1.5 5524344997 F NA 3.4
25830 BANKxxx Austria AT000504 5524344997 F NA 2.4 5524354997 M 39 2.8
25830 BANKxxx Austria AT000504 5524354997 M 38 1.8 5742347684 M 38 3.5
25830 BANKxxx Austria AT000504 6613115791 M 41 NA 40160443378 M 30 4.3
12339 BANKyyy Belgium AT034003 9855321789 M 44 3.6 9855321789 M 45 4.6
12339 BANKyyy Belgium AT034003 277520199 M NA 1.6 23779351 F 34 3.2
请问有人能给我建议吗?谢谢。
数据
DF <- read.table(text =
"CompanyID Name Country ISIN Director_2006 Gender_2006 YearBirth_2006 Director_2007 Gender_2007 YearBirth_2007
25830 BANKxxx Austria AT000504 11734844255 M 54 11734844255 M 55
25830 BANKxxx Austria AT000504 187836811559 F 45 5524344997 F NA
25830 BANKxxx Austria AT000504 5524344997 F NA 5524354997 M 39
25830 BANKxxx Austria AT000504 5524354997 M 38 5742347684 M 38
25830 BANKxxx Austria AT000504 6613115791 M 41 40160443378 M 30
12339 BANKyyy Belgium AT034003 9855321789 M 44 9855321789 M 45
12339 BANKyyy Belgium AT034003 277520199 M NA 23779351 F 34",
header = T, stringsAsFactors = F)
DF2 <- read.table(text =
"DirectorID Year YearsExperience
11734844255 2006 0.4
11734844255 2007 1.4
187836811559 2006 1.5
5524344997 2006 2.4
5524344997 2007 3.4
5524354997 2006 1.8
5524354997 2007 2.8
5742347684 2007 3.5
40160443378 2007 4.3
9855321789 2005 2.6
9855321789 2006 3.6
9855321789 2007 4.6
277520199 2006 1.6
23779351 2007 3.2
55443322 2005 2.5
55443322 2006 3.5",
header = T, stringsAsFactors = F)
dplyr
中的filter
和select
函数会大大降低执行时间。 - 5th