我无法找到正确的正则表达式来解析文本文件并识别段落。
目前我的代码:
[\n\n]+
示例文本:
当年年轻的夫妇进入克林格尔旅馆时,它已经有些陈旧了。那是一个不友好、多雨的夏天。到处都是抱怨...来自瑞士——从萨尔茨卡默古特(Salzkammergut)流传而来的臭名昭著的“绳索雨”——来自波罗的海海岸和恩加丁......最后也有来自巴伐利亚南部山区的美丽小镇的抱怨,在那里人们通常被美丽的天气所宠爱。
如此迷人的一块土地!无论是在低处还是在高处,因为这些精美的房屋仿佛是从玩具盒子里取出来的,这里它们勇敢地爬上山脉,那里它们固执地藏在深深的果树下面。但阳光照耀着它们,并用宽阔的金色光芒洒满它们,新鲜而凉爽的山风从山上吹来,拂过它们——四周的山峰像座强大锁链的环节一样紧密相连......有些绿色、茂密的丛林,有些高耸峻岭却只长着小而稀疏的云杉,还有一些山峰在云端中壮观地屹立,头上覆盖着永久的积雪,衣褶之间闪现着蓝色的冰川!
我一直收到反馈,说在行的末尾得到一个标记,标记为TokenParagraph。
例如:
.... 然后出现了 [这是它失误的位置]
编辑:
当尝试使用(\n|^).*?(?=\n|$)
时
我得到了:
为了对lexing-0.1.0.0进行预处理...... Tokens.x:22:8: 解析错误
%wrapper "basic"
$whiteSpace = [\ \t \f \v \r]
$digit = 0-9
$alpha = [a-zA-Z]
tokens :-
$whiteSpace+ ;
$digit+ ;
(\n|^).*\?(\?=\n|$) { \s -> TokenParagraph }