场景: 假设你有200张表格中的90TB文本数据。这是结构化相关的数据,类似于dbpedia,但数据更多。任何真正关系型、分布式和高性能的数据库都可以胜任此工作。不要期望像社交网络那样频繁更新,但约为500个读取查询/秒20个更新/秒。但除了这些主要特征外,还需要在数据库上以高速运行大量分析,因为数据将被不断地用像Apache Mahout这样的机器学习技术重新处理和改进。
现在首先要解决的问题是,使用哪些数据库技术(或等待它们发布)来维护所有这些数据,虽然网站访问者相对较少,但对快速运行分析/机器学习有很高的需求?其次,要跟踪哪些其他数据库以满足特定目的,哪些要从列表中删除或成对出现,只应用一个(/更好的)。
现在首先要解决的问题是,使用哪些数据库技术(或等待它们发布)来维护所有这些数据,虽然网站访问者相对较少,但对快速运行分析/机器学习有很高的需求?其次,要跟踪哪些其他数据库以满足特定目的,哪些要从列表中删除或成对出现,只应用一个(/更好的)。
Cloudera/Brisk (Cassandra,Hive)
mysql(cluster), mariadb
Berkeley DB
drizzle, nimbusdb,
scidb (http://www.theregister.co.uk/2010/09/13/michael_stonebraker_interview/)
mongodb
datadraw
neo4j