能否通过JavaScript正则表达式(可以使用“xregexp”JS库)在日语字符串(例如:“私はマーケットに行きました。”)中找到单词边界的解决方案?
例如:
例如:
var xr = RegExp("\\bst","g");
xr.test("The string") // --> true
我需要针对日语字符串的相同逻辑。
var xr = RegExp("\\bst","g");
xr.test("The string") // --> true
我需要针对日语字符串的相同逻辑。
例如,句子“私はマーケットに行きました。”(“我去了市场”)有以下单词:
一个可靠的日语句子解析器必须找到助词(wa和ni)在句子中的位置,以便找到剩下的单词。
(^|$|[\s.,:\u3002]+)
或类似的字符集。
\u3002
来自于('。'.charCodeAt(0)).toString(16)
。它是日语中的标点符号吗?
或者,相反地,定义一个包含构成单词的Unicode范围并对其取反:
var boundaries = /(^|$|\s+|[^\u30A0–\u30FA]+)/g;
这个例子的片假名范围取自http://www.unicode.org/charts/PDF/U30A0.pdf。
\\bst
是什么? - hippietrail