我有一列包含很多不一致的字符串。其中一些字符串包含一个一致模式的子字符串'2015mmdd_AB_CD_EFG_(text)_(text)_HIJ'
,我想要提取这些字符串。我感觉这是正则表达式和子字符串命令的交叉应用。
到目前为止,我最好的方法是一个相当丑陋的
substring(col_name, '........_.._.._..._.+_.+_...')
这并不能得到所需的输出,而是像'(...)_HIJ_blablabla'这样的结果。
在这种情况下,我应该如何有效地结合模式识别和子字符串选择?