我正在编写一些代码来在数据库中查找重复的客户信息。我将使用Levenshtein距离。
然而,我不确定如何存储这些关系。我经常使用数据库,但从未遇到过这种情况,想知道是否有人能指点我正确的方向。
令我困惑的是如何存储双向关系。
我已经开始列举一些示例,但想知道是否有最佳实践来存储此类数据, 示例数据 id,地址
001,5 Main Street
002,5 Main St.
003,5 Main Str
004,6 High Street
005,7 Low Street
006,7 Low St 建议1 customer_id1,customer_id2,relationship_strength
001,002,0.74
001,003,0.77
002,003,0.76
005,006,0.77
不满意这种方法,因为它暗示了从customer_id1到customer_id2的单向关系。除非当然我包括所有的双向关系,但那将加倍处理时间和表格大小。
例如需要包括:002,001,0.74 建议2 customer_id,grouping_id
001,1
002,1
003,1
005,2
006,2
然而,我不确定如何存储这些关系。我经常使用数据库,但从未遇到过这种情况,想知道是否有人能指点我正确的方向。
令我困惑的是如何存储双向关系。
我已经开始列举一些示例,但想知道是否有最佳实践来存储此类数据, 示例数据 id,地址
001,5 Main Street
002,5 Main St.
003,5 Main Str
004,6 High Street
005,7 Low Street
006,7 Low St 建议1 customer_id1,customer_id2,relationship_strength
001,002,0.74
001,003,0.77
002,003,0.76
005,006,0.77
不满意这种方法,因为它暗示了从customer_id1到customer_id2的单向关系。除非当然我包括所有的双向关系,但那将加倍处理时间和表格大小。
例如需要包括:002,001,0.74 建议2 customer_id,grouping_id
001,1
002,1
003,1
005,2
006,2