我想尝试在PHP中解析纯文本文档,但不知道如何正确地做到这一点。我想分离每个单词,为它们分配一个ID,并以JSON格式保存结果。
示例文本:
如何确保空格保持原样,且符号不会与单词混合在一起...
示例文本:
"Hello, how are you (today)"
我目前正在做的事情:
$document_array = explode(' ', $document_text);
json_encode($document_array);
生成的 JSON 如下:
[["Hello,"],["how"],["are"],["you"],["(today)"]]
如何确保空格保持原样,且符号不会与单词混合在一起...
[["Hello"],[", "],["how"],[" "],["are"],[" "],["you"],[" ("],["today"],[")"]]
我相信需要使用某种正则表达式,但不知道应该应用什么样的模式来处理所有情况... 有什么建议吗?