我正在尝试使用php函数preg_split将带有文本的字符串拆分成单词。
$words = preg_split('/\W/u',$text);
除了瑞典字符“åäö”外,它的工作良好。使用utf8_encode或decode也无法解决问题。我猜测preg_split仅适用于单字节字符,而瑞典字符是多字节字符。有没有其他方法可以解决这个问题?
$text = "Jag har hört så mycket om dig.";
$words = explode(" ", $text);
/*
Array
(
[0] => Jag
[1] => har
[2] => hört
[3] => så
[4] => mycket
[5] => om
[6] => dig.
)
*/
mb_split
来拯救(我自己以前也遇到过这些问题,现在才找到答案 :))
mb_regex_encoding('UTF-8');
mb_split('\W', $text);
HTH