我需要拆分字符串并提取由空白字符隔开的单词。源可以是英语或日语。 英语空格字符包括制表符和空格,日本文本也使用这些字符。 (如果我没记错的话,所有广泛使用的日语字符集都是US-ASCII的超集。)
因此,我需要用于拆分字符串的字符集包括常规ASCII空格和制表符。
但是,在日语中,还有另一个空格字符,通常称为“全角空格”。根据我的Mac的Character Viewer实用程序,这是U + 3000“IDEOGRAPHIC SPACE”。这通常是用户在日语输入模式下键入时按下空格键时的结果。
还有其他需要考虑的字符吗?
我正在处理由用户提交的文本数据,告知他们“用空格分隔条目”。然而,用户使用各种计算机和移动电话操作系统来提交这些文本。 我们已经看到用户可能不知道他们在输入此数据时处于日语还是英语输入模式。
此外,即使在日语模式下,空格键的行为也因平台和应用程序而异(例如,Windows 7将插入一个表意空格,但iOS将插入ASCII空格)。
因此,我想要的基本上是“所有外观类似于空格且在用户按下空格键或制表键时可能生成的字符集,在日语和/或英语中”。
是否有任何权威的答案可以回答这样的问题?
因此,我需要用于拆分字符串的字符集包括常规ASCII空格和制表符。
但是,在日语中,还有另一个空格字符,通常称为“全角空格”。根据我的Mac的Character Viewer实用程序,这是U + 3000“IDEOGRAPHIC SPACE”。这通常是用户在日语输入模式下键入时按下空格键时的结果。
还有其他需要考虑的字符吗?
我正在处理由用户提交的文本数据,告知他们“用空格分隔条目”。然而,用户使用各种计算机和移动电话操作系统来提交这些文本。 我们已经看到用户可能不知道他们在输入此数据时处于日语还是英语输入模式。
此外,即使在日语模式下,空格键的行为也因平台和应用程序而异(例如,Windows 7将插入一个表意空格,但iOS将插入ASCII空格)。
因此,我想要的基本上是“所有外观类似于空格且在用户按下空格键或制表键时可能生成的字符集,在日语和/或英语中”。
是否有任何权威的答案可以回答这样的问题?
/\s/
匹配空格字符(相当于[ \f\n\r\t\v\u00A0\u2028\u2029]
)。 - Matt Ball\u3000
,问题提出者想知道还有什么别的字符也可能会缺少。Unicode分隔符空格列表有18个条目:http://www.fileformat.info/info/unicode/category/Zs/list.htm - Gabe\uFFE3
(上划线)也被用作全角空格(在日本网络上)。 - makdad