我之前做了一些“99 Haskell 问题”的练习,其中我觉得第27个问题(“编写一个函数来枚举可能的组合”)很有意思,因为它是一个简单的概念,并且适用于多个实现方式。
我对相对效率感到好奇,所以我决定运行几种不同的实现——结果如下表所示。(参考信息:在VirtualBox上运行的LXDE(Ubuntu 14.04)中的Emacs bash ansi-term;Thinkpad X220;8GB RAM,i5 64位2.4GHz。)
(i) 为什么组合生成技术#7和#8(下表中的代码包含在帖子底部)比其他方法快这么多?
(ii) 此外,“字节”列中的数字实际上代表什么?
(i) 奇怪的是,函数#7通过过滤幂集(比组合列表要大得多)来工作;我认为这是惰性的结果,即这是最有效地利用我们只要求列表长度而不是列表本身的函数。(此外,它的“内存使用量”比其他函数低,但是,我也不确定显示的确切与内存相关的统计数据是什么。)
关于函数#8:向Bergi致敬,因为他实现了那个极快的实现,也感谢user5402提出了建议。仍在努力理解这一个的速度差异。
(ii) “字节”列中的数字是在运行:set +s命令后GHCi报告的;显然它们并不代表最大内存使用量,因为我只有约25GB的RAM和免费的硬盘空间。
我对相对效率感到好奇,所以我决定运行几种不同的实现——结果如下表所示。(参考信息:在VirtualBox上运行的LXDE(Ubuntu 14.04)中的Emacs bash ansi-term;Thinkpad X220;8GB RAM,i5 64位2.4GHz。)
(i) 为什么组合生成技术#7和#8(下表中的代码包含在帖子底部)比其他方法快这么多?
(ii) 此外,“字节”列中的数字实际上代表什么?
(i) 奇怪的是,函数#7通过过滤幂集(比组合列表要大得多)来工作;我认为这是惰性的结果,即这是最有效地利用我们只要求列表长度而不是列表本身的函数。(此外,它的“内存使用量”比其他函数低,但是,我也不确定显示的确切与内存相关的统计数据是什么。)
关于函数#8:向Bergi致敬,因为他实现了那个极快的实现,也感谢user5402提出了建议。仍在努力理解这一个的速度差异。
(ii) “字节”列中的数字是在运行:set +s命令后GHCi报告的;显然它们并不代表最大内存使用量,因为我只有约25GB的RAM和免费的硬盘空间。
import Data.List
--algorithms to generate combinations
--time required to compute the following: length $ 13 "abcdefghijklmnopqrstuvwxyz"
--(90.14 secs, 33598933424 bytes)
combDC1 :: (Eq a) => Int -> [a] -> [[a]]
combDC1 n xs = filter (/= []) $ combHelper n n xs []
combHelper :: Int -> Int -> [a] -> [a] -> [[a]]
combHelper n _ [] chosen = if length chosen == n
then [chosen]
else [[]]
combHelper n i remaining chosen
| length chosen == n = [chosen]
| n - length chosen > length remaining = [[]]
| otherwise = combHelper n (i-1) (tail remaining) ((head remaining):chosen) ++
combHelper n i (tail remaining) chosen
--(167.63 secs, 62756587760 bytes)
combSoln1 :: Int -> [a] -> [([a],[a])]
combSoln1 0 xs = [([],xs)]
combSoln1 n [] = []
combSoln1 n (x:xs) = ts ++ ds
where
ts = [ (x:ys,zs) | (ys,zs) <- combSoln1 (n-1) xs ]
ds = [ (ys,x:zs) | (ys,zs) <- combSoln1 n xs ]
--(71.40 secs, 30480652480 bytes)
combSoln2 :: Int -> [a] -> [[a]]
combSoln2 0 _ = [ [] ]
combSoln2 n xs = [ y:ys | y:xs' <- tails xs
, ys <- combSoln2 (n-1) xs']
--(83.75 secs, 46168207528 bytes)
combSoln3 :: Int -> [a] -> [[a]]
combSoln3 0 _ = return []
combSoln3 n xs = do
y:xs' <- tails xs
ys <- combSoln3 (n-1) xs'
return (y:ys)
--(92.34 secs, 40541644232 bytes)
combSoln4 :: Int -> [a] -> [[a]]
combSoln4 0 _ = [[]]
combSoln4 n xs = [ xs !! i : x | i <- [0..(length xs)-1]
, x <- combSoln4 (n-1) (drop (i+1) xs) ]
--(90.63 secs, 33058536696 bytes)
combSoln5 :: Int -> [a] -> [[a]]
combSoln5 _ [] = [[]]
combSoln5 0 _ = [[]]
combSoln5 k (x:xs) = x_start ++ others
where x_start = [ x : rest | rest <- combSoln5 (k-1) xs ]
others = if k <= length xs then combSoln5 k xs else []
--(61.74 secs, 33053297832 bytes)
combSoln6 :: Int -> [a] -> [[a]]
combSoln6 0 _ = [[]]
combSoln6 _ [] = []
combSoln6 n (x:xs) = (map (x:) (combSoln6 (n-1) xs)) ++ (combSoln6 n xs)
--(8.41 secs, 10785499208 bytes)
combSoln7 k ns = filter ((k==).length) (subsequences ns)
--(3.15 secs, 2889815872 bytes)
subsequencesOfSize :: Int -> [a] -> [[a]]
subsequencesOfSize n xs = let l = length xs
in if n>l then [] else subsequencesBySize xs !! (l-n)
where
subsequencesBySize [] = [[[]]]
subsequencesBySize (x:xs) = let next = subsequencesBySize xs
in zipWith (++) ([]:next) (map (map (x:)) next ++ [[]])
combSoln7 2 [1..30]
;看起来很快,因为26!/(13! * 13!) = 10400600,这只比2^26 = 67108864小6倍。此外,6可能比8更快,请参见http://ideone.com/TdCWiK和http://ideone.com/ojnrB3(但我不知道ideone.com进行了哪些优化)。 - effectfully