我有一个问题一直没有找到解决方法。我有一个数据框,其中包含两种不同模式中的不同形容词和动词分词。
head(THAT_EXT_COMBINED)
ID PATTERN NODE
1 HRE_721_03 THAT_EXT accepted
2 G08_1321_01 THAT_EXT acknowledged
3 AAW_47_03 THAT_EXT acknowledged
4 G20_1490_01 THAT_EXT alarming
5 FY8_732_02 THAT_EXT amazing
6 HEM_128_03 THAT_EXT amazing
str(THAT_EXT_COMBINED)
'data.frame': 1450 obs. of 3 variables:
$ ID : Factor w/ 1450 levels "A05_253_01","A05_277_07",..: 1109 827 265 853 812 1046 369 810 214 41 ...
$ PATTERN: Factor w/ 2 levels "THAT_EXT","THAT_POST": 1 1 1 1 1 1 1 1 1 1 ...
$ NODE : Factor w/ 201 levels "accepted","acknowledged",..: 1 2 2 6 8 8 8 10 12 15 ...
我希望能够绘制两种模式中形容词的频率,并在同一图表中使用两个直方图进行比较。问题是两种模式之间存在一些重叠(即某些形容词在两个模式中都出现),但我只想让每个直方图以最常见的形容词开始。
这是我在生成单个直方图时使用的排序代码:
THAT_EXT_COMBINED <- within(THAT_EXT_COMBINED,
NODE <- factor(NODE,
levels=names(sort(table(NODE),
decreasing=TRUE))))
我明白为什么这样做不起作用,因为它将两个模式的频率结合在一起,但我仍然不知道如何解决它。我一直在尝试使用reorder()但没有成功。有什么想法吗?
以下是我用于图表的代码:
graph<-ggplot(THAT_EXT_COMBINED, aes(x=NODE, fill=PATTERN)) +
geom_histogram(binwidth=.5, position="dodge")
graph + opts(axis.text.x = theme_blank()) + #removes text labels on x-axis
scale_y_continuous("Frequency") +
scale_x_discrete("Adjectives",breaks=NULL)+
opts(title = expression("Distribution of Adjectives"))
生成的图表存在的问题是两个模式中形容词的频率没有被严格排序。有人能帮忙解决吗?
以下是我使用以上代码生成的图表。相比之下,我想要的结果是每个模式的形容词都按照出现频率从高到低排列,即根据频率以递减顺序呈现两个直方图。我认为这可以简化成一个排序问题,我尝试了不同的因素排序方式,但没有成功地先按PATTERN排序,然后再按NODE频率排序。