我使用wget从互联网上读取页面。但有时我会得到经过gzip压缩的二进制流,而不是普通文本HTML文件。如何最好地确定所获取的数据是二进制还是纯文本?如果我尝试使用字母或数字(文本)匹配数据,那么就会得到“Malformed UTF-8”的错误。
my $result = run << wget -k -q -O $aPage "$aURL" >>, :err;
我需要知道$result是二进制(gzip)还是纯文本。
if $result ~~ / <:L + :N> / { } # this will fail with "Malformed UTF-8" if $result is a binary stream
是否有一个Raku包可以从任何URL获取纯文本HTML页面源代码?
谢谢。