我有许多故事讲述的文字记录,其中有许多重叠的语音,用方括号括起来表示。我想要提取这些重叠的部分。在下面的模拟示例中,
这段代码运行良好:
但在一个更大的文件中,即数据框中,情况就不同了。这是由于模式错误还是由于数据框结构的问题呢?数据框的前六行如下所示:
ovl <- c("well [yes right]", "let's go", "oh [ we::ll] i do n't (0.5) know", "erm [°well right° ]", "(3.2)")
这段代码运行良好:
pattern <- "\\[(.*\\w.+])*"
grep(pattern, ovl, value=T)
matches <- gregexpr(pattern, ovl)
overlap <- regmatches(ovl, matches)
overlap_clean <- unlist(overlap); overlap_clean
[1] "[yes right]" "[ we::ll]" "[°well right° ]"
但在一个更大的文件中,即数据框中,情况就不同了。这是由于模式错误还是由于数据框结构的问题呢?数据框的前六行如下所示:
> head(df)
Story
1 "Kar:\tMind you our Colin's getting more like your dad every day
2 June:\tI know he is.
3 Kar:\tblack welding glasses on,
4 \tand he turned round and he made me jump
5 \t“O:h, Colin”,
6 \tand then ( )