我正在从十六进制形式的二进制项中提取4元组,这意味着每个项最多可以有65535个不同的四元组。
我想将每个项与其四元组及其频率相关联,但我对如何存储所有内容感到困惑 - 这是我的第一次数据挖掘经验,我对最佳实践和常用工具毫无头绪。
我最初想到的是在关系型数据库中构建一个大表,其模式类似于(ITEM-NAME,GRAM1,GRAM2 ... GRAM65535),并在其中存储频率,但我发现由于列数太多,这种方法非常不切实际。
我知道一定有更好的解决方案,但我不知道该去哪里寻找。
有什么建议吗?
我想将每个项与其四元组及其频率相关联,但我对如何存储所有内容感到困惑 - 这是我的第一次数据挖掘经验,我对最佳实践和常用工具毫无头绪。
我最初想到的是在关系型数据库中构建一个大表,其模式类似于(ITEM-NAME,GRAM1,GRAM2 ... GRAM65535),并在其中存储频率,但我发现由于列数太多,这种方法非常不切实际。
我知道一定有更好的解决方案,但我不知道该去哪里寻找。
有什么建议吗?