我有一个包含9列和1200万行的大表格,如下:
col1 col2 col3 col4 col5 col6 col7 col8 col9
12.3 37.4 7771 -675 -23 23.8 78.8 -892 67.5
79.3 -6.3 6061 -555 -24 28.1 77.1 -889 32.6
55.6 -7.3 8888 -921 -56 78.3 22.3 -443 22.9
.... .... .... .... .... .... .... .... ....
目前,这个表格以TSV(制表符分隔向量)格式保存在我的硬盘上,大小为432MB。我想将表格填充到Redis中,以便最有效地完成这种查询:对于每个列给定一个最小值和最大值,计算在给定范围内的行数,即
(min_col1 <= col1 <= max_col1) &&
(min_col2 <= col2 <= max_col2) &&
(min_col3 <= col3 <= max_col3) &&
(min_col4 <= col4 <= max_col4) &&
(min_col5 <= col5 <= max_col5) &&
(min_col6 <= col6 <= max_col6) &&
(min_col7 <= col7 <= max_col7) &&
(min_col8 <= col8 <= max_col8) &&
(min_col9 <= col9 <= max_col9)
我的问题如下:
1) 如何将表格填充到Redis中?应该使用什么类型的键/值数据结构?哈希、列表、集合、排序集,还是其他什么?
2) 在填充了表格之后,给定9个列的最小和最大值,如何编写查询以获取计数,即在9个范围内落入行的数量?我能想到的一种方法是,首先找出满足每个X(1到9)的(min_colX <= colX <= max_colX)的行,然后计算它们的交集。但是我猜这不是最有效的方法。我只想尽快检索到计数。
顺便说一句,我尝试过MongoDB。使用mongoimport来填充表格很简单,但是我的查询需要10秒钟才能完成,这对于我的实时应用来说太慢并且无法接受。相比之下,Redis将数据保存在内存中,因此我希望Redis可以将查询时间缩短到1秒钟以内。
供您参考,这是我在MongoDB中的操作。
mongoimport -u my_username -p my_password -d my_db -c my_coll --type tsv --file my_table.tsv --headerline
use my_db
db.my_coll.ensureIndex({col1:1, col2:1, col3:1, col4:1, col5:1, col6:1, col7:1, col8:1, col9:1 }).
db.my_coll.count({ col1: {$gte: min_col1, $lte: max_col1), col2: {$gte: min_col2, $lte: max_col2}, col3: {$gte: min_col3, $lte: max_col3}, col4: {$gte: min_col4, $lte: max_col4}, col5: {$gte: min_col5, $lte: max_col5}, col6: {$gte: min_col6, $lte: max_col6}, col7: {$gte: min_col7, $lte: max_col7}, col8: {$gte: min_col8, $lte: max_col8}, col9: {$gte: min_col9, $lte: max_col9} }).
我使用了explain()函数来确保Btree索引被实际使用,而不是被当成表扫描。
我还尝试创建一个ram磁盘,并将我的MongoDB数据库保存到其中,但由于对于我的实时应用程序来说,将查询时间从10秒缩短到9秒还远远不能够接受。
mkdir ~/ram
chmod -R 755 ~/ram
mount -t tmpfs none ~/ram -o size=8192m
mongod --dbpath ~/ram --noprealloc --smallfiles