我希望能够修补从网页中提取出来的一些文本数据。 样例:
t="First sentence. Second sentence.Third sentence."
第二句话结尾的句点后面没有空格。这表明第三句话在原始文档中是单独一行(在 br 标签之后)。
我想使用这个正则表达式将 "\n" 字符插入到适当的位置并修补我的文本。 我的正则表达式:
t2=t.gsub(/([.\!?])([A-Z1-9])/,$1+"\n"+$2)
但不幸的是它并没有起作用:"NoMethodError: undefined method `+' for nil:NilClass"。我该如何正确地回溯到匹配的组?在Microsoft Word中这很容易,我只需要使用\1和\2符号。
$1
,$2
,...)未设置,它们由gsub
在提交给块之前设置。因此,sawa建议在何时使用'\1'
和何时使用$1
。 - mu is too short