我正在尝试找出Scala的哈希函数在大型哈希表(例如存储特定DNA位的出现次数)中的扩展性。
然而,有趣的是,无论是HashMap还是OpenHashMap都似乎忽略了指定初始大小的参数(最新版本为2.9.2和2.10.0)。
我认为这是因为在添加首个80万元素后,添加新元素变得更加缓慢。
我尝试过增加要插入的字符串中的熵(代码下面仅使用ACGT字符),但没有效果。
关于这个特定问题有什么建议吗?我也很想听听您是否认为在具有数十亿条记录的哈希表中使用Scala内置类型是一个好主意。
import scala.collection.mutable.{ HashMap, OpenHashMap }
import scala.util.Random
object HelloWorld {
def main(args: Array[String]) {
val h = new collection.mutable.HashMap[String, Int] {
override def initialSize = 8388608
}
// val h = new scala.collection.mutable.OpenHashMap[Int,Int](8388608);
for (i <- 0 until 10000000) {
val kMer = genkMer()
if(! h.contains(kMer))
{
h(kMer) = 0;
}
h(kMer) = h(kMer) + 1;
if(i % 100000 == 0)
{
println(h.size);
}
}
println("Exit. Hashmap size:\n");
println(h.size);
}
def genkMer() : String =
{
val nucs = "A" :: "C" :: "G" :: "T" :: Nil
var s:String = "";
val r = new scala.util.Random
val nums = for(i <- 1 to 55 toList) yield r.nextInt(4)
for (i <- 0 until 55) {
s = s + nucs(nums(i))
}
s
}
}