//我对此进行了新的尝试,请参见欺骗PHP整数。非常感谢您的帮助。我有一个想法,尝试通过将整数打包成无符号字节(只需要8或16位整数即可大大减少内存)来黑掉数组的存储选项。
你好
我目前正在开发自定义字符集检测库,并从Mozilla的字符集检测算法创建了一个端口,并使用chardet(python端口)作为帮助手段。然而,在PHP中这是极其占用内存的(如果我只加载西方语言检测,大约需要30MB的内存)。我已经尽力优化了所有可以优化的内容,但不想从头开始重写每个部分以加载(这会减少内存,但使其变得更慢)。
我的问题是,您是否知道任何LGPL PHP库可以进行字符集检测? 这纯粹是为了研究,给我一点指导方向。
我已经知道mb_detect_encoding,但它太有限了,并且在我拥有的文本文件中带来了太多误报(而Python的chardet完美地检测到它们)