使用正则表达式识别和隔离希伯来语单词

5

我需要解析一句希伯来语句子并识别和隔离出每个单词(以便我可以用‘span’标签将它们包装起来)。

我首先尝试忽略标点符号,通过识别空格字符与非空格字符来解析,但仍然无法实现:

var regex = /(\s)*(\S)+(\s)*/g;

有什么想法吗? 谢谢

编辑:我已经有一条在英语中完成工作的常规表达式,我在这里放置它,以防它可以帮助理解我想要实现的内容:

var regExp = /\b([^\s']+)\b/g,

编辑2:添加代码示例

var regex = /(\s)*(\S)+(\s)*/g;
var sentence = "שלום מה קורה מהיום";
sentence.replace(regex, function(match, p1, p2, p3){console.log('"' + match + '"', '"' + p1 + '"', '"' + p2 + '"', '"' + p3 + '"');});


// result
"שלום " "undefined" "ם" " " VM1494:2
"מה " "undefined" "ה" " " VM1494:2
"קורה " "undefined" "ה" " " VM1494:2
"היום" "undefined" "ם" "undefined" VM1494:2
"undefinedundefinedundefinedundefined"

编辑3:我需要能够在句子末尾保留相同的标点符号来重新组合句子。


“不起作用”是什么意思?是指与源字符串不匹配吗?还是无法捕获您想要的内容?请提供应该匹配和不应该匹配的示例字符串。 - David-SkyMesh
@David-SkyMesh:我已经编辑了我的帖子,并附上了示例。 - Jonathan Bensaid
你有可变数量的匹配。尝试将(\s)*两次更改为(\s*),并将(\S)+更改为(\S+) - David-SkyMesh
1
如果你的正则表达式现在是 (\s*)(\S+)(\s*),但是没有匹配成功,那么你得考虑一下\S这个字符类不能正确匹配希伯来字符(不太可能)。 - David-SkyMesh
我不熟悉希伯来语,你能否请在示例中定义正确的单词和边界?因为你的模式能完美地按空格拆分句子。我想要理解这个问题。 - Mehdi
显示剩余7条评论
4个回答

1

你可能知道,在网络上使用希伯来语很麻烦。尝试使用这个正则表达式:

[\s]*(\S)+[\s]*

例子:
var words = sentence.match(/[\s]*(\S)+[\s]*/g);

它确实保留了尾部空格,为了清除它们,您可以采取以下措施:
words = words.join().split(" ")

我正在尝试一些其他的正则表达式变体来绕过join-split黑客攻击,如果我找到了什么,我会更新的。
此外,您可以采用“替换”的方式进行操作:
var words = sentence.replace(/[#`~?!#\$%\.;:,]*/g, "").split(" ")

请确保添加任何可能使用的标点符号。

然后,要获得一个新的带有用span标签包装的单词的HTML字符串,您可以执行以下操作:

假设:

var sentence = "?שלום, מה קורה מהיום"
var words = sentence.replace(/[#`~?!#\$%\.;:,]*/g, "").split(" ")

然后:

var newSentence = encodeURI(sentence)
words.forEach(function(word){
   word = encodeURI(word)
   newSentence = newSentence.replace(word, "<span>" + word + "</span>")
})
newSentence = decodeURI(newSentence);

`newSentence`将用`span`标签包裹您的单词,并保留标点符号:

不客气,很高兴能帮到您。如果您能给我的答案投票并将其标记为解决方案,我会非常感激。 - Lior
我已将其标记为解决方案,但由于我是 Stack Overflow 上的新用户,无法投票支持。我需要 15 分,而我只有 8 分声望... - Jonathan Bensaid
没关系,当你需要的时候,你随时可以回来的 ;) - Lior

1
尝试在字符正则表达式匹配类型和希伯来范围之间使用Unicode。
"בדיקה, להלהלה".match(/[\u0590-\u05F4\uFB00-\uFB4F]+/g)

根据标点符号(简单):
".בדיק'ה, להלהל\"ה".match(/[^,.]+/g)

所有标点符号的正则表达式:

"aa bb cc.בדיק'ה, להלהל\"ה .test'da, te\"xt".replace(/[\-=_!"#%&'*{},.\/:;?\(\)\[\]@\\$\^*+<>~`\u00a1\u00a7\u00b6\u00b7\u00bf\u037e\u0387\u055a-\u055f\u0589\u05c0\u05c3\u05c6\u05f3\u05f4\u0609\u060a\u060c\u060d\u061b\u061e\u061f\u066a-\u066d\u06d4\u0700-\u070d\u07f7-\u07f9\u0830-\u083e\u085e\u0964\u0965\u0970\u0af0\u0df4\u0e4f\u0e5a\u0e5b\u0f04-\u0f12\u0f14\u0f85\u0fd0-\u0fd4\u0fd9\u0fda\u104a-\u104f\u10fb\u1360-\u1368\u166d\u166e\u16eb-\u16ed\u1735\u1736\u17d4-\u17d6\u17d8-\u17da\u1800-\u1805\u1807-\u180a\u1944\u1945\u1a1e\u1a1f\u1aa0-\u1aa6\u1aa8-\u1aad\u1b5a-\u1b60\u1bfc-\u1bff\u1c3b-\u1c3f\u1c7e\u1c7f\u1cc0-\u1cc7\u1cd3\u2016\u2017\u2020-\u2027\u2030-\u2038\u203b-\u203e\u2041-\u2043\u2047-\u2051\u2053\u2055-\u205e\u2cf9-\u2cfc\u2cfe\u2cff\u2d70\u2e00\u2e01\u2e06-\u2e08\u2e0b\u2e0e-\u2e16\u2e18\u2e19\u2e1b\u2e1e\u2e1f\u2e2a-\u2e2e\u2e30-\u2e39\u3001-\u3003\u303d\u30fb\ua4fe\ua4ff\ua60d-\ua60f\ua673\ua67e\ua6f2-\ua6f7\ua874-\ua877\ua8ce\ua8cf\ua8f8-\ua8fa\ua92e\ua92f\ua95f\ua9c1-\ua9cd\ua9de\ua9df\uaa5c-\uaa5f\uaade\uaadf\uaaf0\uaaf1\uabeb\ufe10-\ufe16\ufe19\ufe30\ufe45\ufe46\ufe49-\ufe4c\ufe50-\ufe52\ufe54-\ufe57\ufe5f-\ufe61\ufe68\ufe6a\ufe6b\uff01-\uff03\uff05-\uff07\uff0a\uff0c\uff0e\uff0f\uff1a\uff1b\uff1f\uff20\uff3c\uff61\uff64\uff65]+/g," ")

实际上,希伯来语中有很多缩写词,可能也需要将它们包含在内。
".בדיק'ה, להלהל\"ה".match(/[\u0590-\u05F4\uFB00-\uFB4F][\u0590-\u05F4\uFB00-\uFB4F'"]*/g)
(2) ["בדיק'ה", "להלהל"ה"]

原始短语
"שלום, מה קורה מהיום".match(/[\u0590-\u05F4\uFB00-\uFB4F][\u0590-\u05F4\uFB00-\uFB4F'"]*/g)
(4) ["שלום", "מה", "קורה", "מהיום"]

带有英文

 "aa bb cc.בדיק'ה, להלהל\"ה .test'da, te\"xt".match(/[\u0590-\u05F4\uFB00-\uFB4F][\u0590-\u05F4\uFB00-\uFB4F'"]*/g)
(2) ["בדיק'ה", "להלהל"ה"]

也许还需要加入英文(我决定在英语中不使用希伯来风格的缩写)

"aa bb cc.בדיק'ה, להלהל\"ה .test'da, te\"xt".match(/[\u0590-\u05F4\uFB00-\uFB4F][\u0590-\u05F4\uFB00-\uFB4F'"]*|[a-zA-Z']+/g)
(8) ["aa", "bb", "cc", "בדיק'ה", "להלהל"ה", "test'da", "te", "xt"]

0
我会这样做:
yourString.split(' ').map(function(e){ return "<span>"+e+"</span>"; }).join('');

并确保将style="direction:rtl;添加到包装元素中以处理标点符号。


如果字符串包含多个空格或标点符号呢? 另外,需要注意的是,问题不是有关HTML包装实现的,而是有关问题性正则表达式的... - Lior
Lior,你发现了一个大问题,那就是带有多个标点符号的字符串。这就是困难所在。 - Jonathan Bensaid
@JonathanBensaid,你能回答我在上面评论中提出的问题吗?关于你期望的结果格式是什么? - Lior

0

只需从空格中省略匹配的组。

var regex = /[\s,]*([^\s,]+)[\s,]*/g;

var sentence = "שלום, מה קורה מהיום";

var text = sentence.replace(regex, '<span>$1</span>');

console.log(text);  

// <span>שלום</span><span>מה</span><span>קורה</span><span>מהיום</span>

谢谢Ilan,但是我需要在换行后保持相同的标点符号来重新组合句子。所以分割在这里不起作用。 我忘记在我的问题中提到它了,现在正在编辑。 - Jonathan Bensaid
我更新了我的答案。希望我理解你的需求。 - Ilan Frumer
我试过你的代码,它能工作但会将标点符号也一起带进单词中。 "<span>שלום,</span><span>מה</span><span>קורה</span><span>היום</span>" - Jonathan Bensaid
1
也许我们可以这样改进你的正则表达式:regex = /[\s,]*([^\s,]+)[\s,]*/g; sentence = "שלום, מה קורה היום"; text = sentence.replace(regex, '$1') "שלוםמהקורההיום" - Jonathan Bensaid

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接