如何对以下数据结构建模?

4

抱歉,这个问题有点抽象,因此有些难以定义,所以我可能需要编辑几次才能澄清:

我有一个需要解析的配置文件,其中每个相关行包含以下格式之一:

FieldName = Value
FieldName(Index) = Value
FieldName(Index1, Index2) = Value
FieldName(Index1, Index2, ...IndexN) = Value

例如:

Field0 = 0
Field1(0, 0) = 0.01
Field1(0, 1) = 0.02
Field1(1, 0) = 0.03
Field1(1, 1) = 0.04
Field1(2, 0) = ADF0102BC5
Field1(2, 1) = ADF0102BC6
Field2(0, 0) = 0
Field2(0, 1) = 2
Field3(1) = 5
Field3(2) = 7
Field3(3) = 9
Field4(0, 0, 1) = 64.75
Field4(0, 1, 0) = 65.25
Field4(1, 0, 0) = 72.25

相关的代码行可以使用正则表达式从文件中轻松解析,我已经处理了这一部分。我遇到的问题是如何对数据库中的数据进行建模,以便于当一个新的索引进入某个字段的范围时,它可以自动添加而不需要向表中添加新列。
FieldName始终是最大长度为50的Varchar类型。
值始终是数值类型,表示为许多需要单独解析的字符串格式,但对于此问题而言,这些格式并不重要。
每个索引(如果字段有它们)都是整数值。每个索引都有自己的含义,但它们一起用作将一堆值映射到字段名的映射。
每个字段名称的实例,即Field1,将具有常数数量的索引,即您永远不会有Field1(0, 0)和Field1(0, 0, 0)。如果Field1在配置文件的一行中具有2个索引,则Field1的所有实例都将具有2个索引。
我需要系统足够灵活,可以解析文件并附加必要的索引以供每个字段使用。
我有两种想法-我是否将“等式”的整个左侧视为标签,因此Field1(0, 0)变为“FieldName”,这使得按索引查询非常困难,还是我对我的数据进行建模,使得这些索引有效地成为字段值的坐标?
如果所有文件中的索引保持不变,我可以使用以下模型:
Table Fields(
    FieldId Integer Identity(1, 1) Primary Key,
    FieldName VarChar(50)
)

Table FieldValues(
    FieldId Integer Constraint FK_FV_FID Foreign Key References Fields(FieldId)
    Index1 Integer
    Index2 Integer
    Index3 Integer
    Index4 Integer
    Value  Varchar(50)
)

不幸的是,由于在解析文件之前无法确定索引数量,这使得建模关系更加复杂。

一旦数据被存储,我需要能够使用字段名简单地查询并获取所有相应索引引用及其值的列表,例如:

Field1
------
0, 0 = 0.01
0, 1 = 0.02
1, 0 = 0.03
1, 1 = 0.04
2, 0 = ADF0102BC5
2, 1 = ADF0102BC6

或者

Field1 Where Index1 = 0
-----------------------
0, 0 = 0.01
0, 1 = 0.02

或者

Field1 Where Index 2 = 1
------------------------
0, 1 = 0.02
1, 1 = 0.04
2, 1 = ADF0102BC6

或者

Field1 Where Index1 = 0 And Index2 = 1
--------------------------------------
0, 1 = 0.02

如果我的表结构比较复杂,那么简化查询就会变得更加麻烦。

是的,每个“字段名”都有一组索引,并且对于该字段名的所有实例都是通用的。 Field1(0,0)实际上与Field(0,0,0)不同...尽管在配置文件的上下文中,您将为单个字段名具有恒定数量的索引...不幸的是,直到解析配置文件之前,不知道这个常数是多少。您不会在一行上获得具有2个索引的Field4(例如),在另一行上获得3个索引。它将在解析的所有配置文件中保持不变。 - BenAlabaster
2
你能再详细解释一下客户端如何与数据进行交互吗?你预计会有哪些类型的查询? - Slicedpan
“Field0 = 0” 是指某些字段可能没有任何索引值,而只是普通的表列吗?对于所有其他字段,我看到它们都有某种索引,并且有一个值分配。因此,例如,如果所有 Field3 只有一个索引,那么我可以说 Filed3 是单个数组类型列。Field1 和 Field2 是 2x2 数组,而 Field4 是 3x3 数组。我的理解正确吗? - Anup Shah
当你说“我需要系统足够灵活,能够解析文件并为每个字段附加尽可能多的索引”时,你是指索引的值会发生变化,对吗?因为你还提到“你永远不会有Field1(0, 0)和Field1(0, 0, 0)”。所以这里动态的是括号内索引位置的值。但是一个字段的索引位置数不会改变。 - Anup Shah
如果我的上面的评论是正确的,只是好奇,是否可以说一个字段的最大位置索引是500,并且每个索引位置的可能值为0-1000?因此,FieldX(IndexPosition1,IndexPosition2,.....IndexPosition500)中每个位置的可能值都可以在0和1000之间?或者乐观地说这样的表述不太可能吗? - Anup Shah
显示剩余4条评论
3个回答

2
下面是我对这种情况的思考过程, 将有两种不同类型的查询。一种是结果没有被IndexPostion和/或IndexValue切片,第二种是结果被它们切片。
没有单个表设计可以在不进行任何权衡的情况下给我那个结果。权衡可能是存储、性能或查询复杂度。
下面的解决方案是“放弃存储”,但在访问此模式时要考虑性能和查询简单性。
对于第一类型的查询,只使用“SO_FieldIndexValue”表。
但是,对于第二类型的查询,我们需要将其与其他两个表连接起来,在这里我们需要通过IndexPosition/IndexPositionValue过滤结果。 Schema Design
    IF OBJECT_ID('SO_FieldIndexPositionValue') IS NOT NULL 
        DROP TABLE SO_FieldIndexPositionValue
    IF OBJECT_ID('SO_FieldIndexValue') IS NOT NULL 
        DROP TABLE SO_FieldIndexValue
    IF OBJECT_ID('SO_IndexPositionValue') IS NOT NULL 
        DROP TABLE SO_IndexPositionValue

    CREATE TABLE SO_FieldIndexValue
        (
          FIV_ID        BIGINT NOT NULL IDENTITY
            CONSTRAINT XPK_SO_FieldIndexValue PRIMARY KEY NONCLUSTERED
          ,FieldName    NVARCHAR(50)NOT NULL
          ,FieldIndex   NVARCHAR(10) NOT NULL
          ,FieldValue   NVARCHAR(500) NULL
        )
    CREATE UNIQUE CLUSTERED INDEX CIDX_SO_FieldIndexValue
    ON SO_FieldIndexValue(FIV_ID ASC,FieldName ASC,FieldIndex ASC)
    CREATE NONCLUSTERED INDEX NCIDX_SO_FieldIndexValue
    ON SO_FieldIndexValue (FIV_ID,FieldName) 
    INCLUDE (FieldIndex,FieldValue)

    CREATE TABLE SO_IndexPositionValue
        (
            IPV_ID              BIGINT  NOT NULL IDENTITY
                CONSTRAINT XPK_SO_IndexPositionValue PRIMARY KEY NONCLUSTERED
            ,IndexName          SYSNAME NOT NULL
            ,IndexPosition      INT     NOT NULL
            ,IndexPositionValue BIGINT  NOT NULL
        )
    CREATE UNIQUE CLUSTERED INDEX CIDX_SO_IndexPositionValue 
    ON SO_IndexPositionValue(IPV_ID ASC,IndexPosition ASC, IndexPositionValue ASC)

    CREATE TABLE SO_FieldIndexPositionValue
        (
          FIPV_ID       BIGINT NOT NULL IDENTITY
                CONSTRAINT XPK_SO_FieldIndexPositionValue PRIMARY KEY NONCLUSTERED
          ,FIV_ID           BIGINT NOT NULL REFERENCES SO_FieldIndexValue (FIV_ID)
          ,IPV_ID       BIGINT NOT NULL REFERENCES SO_IndexPositionValue (IPV_ID)
        )
    CREATE CLUSTERED INDEX CIDX_SO_FieldIndexPositionValue 
    ON SO_FieldIndexPositionValue(FIPV_ID ASC,FIV_ID ASC,IPV_ID ASC)

我提供了一个简单的SQL API,只是为了演示如何使用单个API轻松处理插入到此模式中的内容。
有很多机会可以使用此API进行玩耍,并根据需要进行自定义。例如,如果输入格式正确,则添加验证。
    IF object_id('pr_FiledValueInsert','p') IS NOT NULL
        DROP PROCEDURE pr_FiledValueInsert
    GO
    CREATE PROCEDURE pr_FiledValueInsert
    (
        @FieldIndexValue    NVARCHAR(MAX)
        ,@FieldValue        NVARCHAR(MAX)=NULL
    )
    AS
    BEGIN
    SET NOCOUNT ON
    BEGIN TRY
    BEGIN TRAN
            DECLARE @OriginalFiledIndex NVARCHAR(MAX)=@FieldIndexValue
            DECLARE @FieldName              sysname=''
                    ,@FIV_ID                BIGINT
                    ,@FieldIndex            sysname
                    ,@IndexName             sysname
                    ,@IndexPosition         BIGINT
                    ,@IndexPositionValue    BIGINT
                    ,@IPV_ID                BIGINT
                    ,@FIPV_ID               BIGINT
                    ,@CharIndex1            BIGINT
                    ,@CharIndex2            BIGINT
                    ,@StrLen                BIGINT
                    ,@StartPos              BIGINT
                    ,@EndPos                BIGINT

            SET @CharIndex1 = CHARINDEX('(',@OriginalFiledIndex)
            SET @StrLen     = LEN(@OriginalFiledIndex)
            SET @CharIndex2 = CHARINDEX(')',@OriginalFiledIndex)
            SET @FieldName  = RTRIM(LTRIM(SUBSTRING(@OriginalFiledIndex,1,@CharIndex1-1)))
            SET @FieldIndex = RTRIM(LTRIM(SUBSTRING(@OriginalFiledIndex,@CharIndex1+1,@StrLen-@CharIndex1-1)))


            --Insert FieldIndexValue and Get @FIV_ID
            SELECT @FIV_ID = FIV_ID 
            FROM SO_FieldIndexValue 
            WHERE FieldName=@FieldName
            AND FieldIndex=@FieldIndex
            IF @FIV_ID IS NULL
            BEGIN
                INSERT INTO SO_FieldIndexValue ( FieldName,FieldIndex,FieldValue )
                SELECT @FieldName,@FieldIndex,@FieldValue
                SELECT @FIV_ID = SCOPE_IDENTITY()
            END
            ELSE
            BEGIN
                RAISERROR('Filed and Index Combination already Exists',16,1)
            END


            --Find the First IndexPosition and IndexPositionValue and Get @IPV_ID
            SELECT @StartPos=CHARINDEX('(',@OriginalFiledIndex,1)+1
            SELECT @EndPos = CASE   WHEN CHARINDEX(',',@OriginalFiledIndex,@StartPos)<>0
                                    THEN  CHARINDEX(',',@OriginalFiledIndex,@StartPos)- @StartPos
                                    ELSE CHARINDEX(')',@OriginalFiledIndex,@StartPos) - @StartPos
                                END
            SELECT @IndexPosition = 1
            SELECT @IndexPositionValue = SUBSTRING(@OriginalFiledIndex,@StartPos,@EndPos)
            SELECT @IndexName = 'Index'+CAST(@IndexPosition AS Sysname)

            --Insert IndexPositionvalue
            SELECT @IPV_ID = IPV_ID
            FROM SO_IndexPositionValue
            WHERE IndexPosition=@IndexPosition
            AND IndexPositionValue = @IndexPositionValue
            IF @IPV_ID IS NULL
            BEGIN
                INSERT SO_IndexPositionValue
                        ( IndexName ,
                          IndexPosition ,
                          IndexPositionValue
                        )
                SELECT @IndexName,@IndexPosition,@IndexPositionValue
                SET @IPV_ID = SCOPE_IDENTITY()          
            END

            --Insert the First FieldIndexPositionValue
            IF NOT EXISTS(
                            SELECT TOP(1) 1 
                            FROM SO_FieldIndexPositionValue
                            WHERE FIV_ID = @FIV_ID
                            AND IPV_ID = @IPV_ID
                        )
            BEGIN
                INSERT SO_FieldIndexPositionValue( FIV_ID, IPV_ID )
                SELECT @FIV_ID,@IPV_ID
            END

            --If More than One Index exist, process remining indexpositions
            WHILE @StrLen>@StartPos+@EndPos
            BEGIN           
                SET @StartPos = @StartPos+@EndPos+1
                SET @EndPos = CASE WHEN CHARINDEX(',',@OriginalFiledIndex,@StartPos)<>0
                                    THEN  CHARINDEX(',',@OriginalFiledIndex,@StartPos)- @StartPos
                                    ELSE CHARINDEX(')',@OriginalFiledIndex,@StartPos) - @StartPos
                                END

                SELECT @IndexPosition = @IndexPosition+1
                SELECT @IndexPositionValue = SUBSTRING(@OriginalFiledIndex,@StartPos,@EndPos)
                SELECT @IndexName = 'Index'+CAST(@IndexPosition AS Sysname)

                --Insert IndexPositionvalue
                SET @IPV_ID = NULL
                SELECT @IPV_ID = IPV_ID
                FROM SO_IndexPositionValue
                WHERE IndexPosition=@IndexPosition
                AND IndexPositionValue = @IndexPositionValue
                IF @IPV_ID IS NULL
                BEGIN
                    INSERT SO_IndexPositionValue
                            ( IndexName ,
                              IndexPosition ,
                              IndexPositionValue
                            )
                    SELECT @IndexName,@IndexPosition,@IndexPositionValue
                    SET @IPV_ID = SCOPE_IDENTITY()
                END

                --Insert FieldIndexPositionValue
                IF NOT EXISTS(
                                SELECT TOP(1) 1 
                                FROM SO_FieldIndexPositionValue
                                WHERE FIV_ID = @FIV_ID
                                AND IPV_ID = @IPV_ID
                            )
                BEGIN
                    INSERT SO_FieldIndexPositionValue( FIV_ID, IPV_ID )
                    SELECT @FIV_ID,@IPV_ID
                END
            END
    COMMIT TRAN
    END TRY
    BEGIN CATCH
        ROLLBACK TRAN
        SELECT ERROR_MESSAGE()
    END CATCH
    SET NOCOUNT OFF
    END
    GO

现在是样本输入数据

    EXECUTE pr_FiledValueInsert 'FIELD1(0,1,0)',101
    EXECUTE pr_FiledValueInsert 'FIELD1(0,1,2)','ABCDEF'
    EXECUTE pr_FiledValueInsert 'FIELD1(1,0,1)','hello1'

    EXECUTE pr_FiledValueInsert 'FIELD2(1,0,0)',102
    EXECUTE pr_FiledValueInsert 'FIELD2(1,1,0)','hey2'
    EXECUTE pr_FiledValueInsert 'FIELD2(1,0,1)','hello2'

示例查询1

    SELECT FieldName,FieldIndex,FieldValue 
    FROM dbo.SO_FieldIndexValue
    WHERE FieldName = 'Field1'

样例结果1

样例结果1

样例查询2

    SELECT FieldName,FieldIndex AS CompeleteIndex,IndexPosition,IndexPositionValue,FieldValue
    FROM SO_FieldIndexPositionValue fipv
    JOIN dbo.SO_IndexPositionValue ipv
        ON ipv.IPV_ID=fipv.IPV_ID
    JOIN dbo.SO_FieldIndexValue fiv
        ON fiv.FIV_ID=fipv.FIV_ID
    WHERE
    (IndexPosition=2 AND IndexPositionValue=1)
    AND FieldName = 'Field1'

示例结果2

示例结果2

该示例展示了一个名为“示例结果2”的图像。

1
天啊 - 年度最佳答案奖授予 Anup Shah!非常感谢您所做的所有工作!+100 :) - BenAlabaster

1

我不确定这是唯一的答案 - 但这是一个想法:

field
-------
field_id
name

index
---------
index_id
field_id
position
value

field_value
------------
field_id
index_id
value

Randy,我已经尝试过这个了,但是我遇到了问题,无法理解每个字段的索引被视为一组来获取值,而不是单独地。 - BenAlabaster
是的 - 你需要查询出给定字段的所有索引,才能进行操作。 - Randy
这基本上是SQL Server本身如何在元数据中建模类似的东西,例如存储过程和用户定义函数定义。 - RBarryYoung
Ben,我添加了一个 index_id 以帮助你的问题... 在索引表中根据需要重复使用 index_id,然后你可以在 field_value 表中将其用作参考。 - Randy

1
我的SQL经验告诉我一件事——如果你不知道它们有多少个,那么它们应该在行中而不是列中。
我建议使用两个结构如下的表:

行ID,字段名,值

索引

行ID,索引位置,索引值

为了通过其索引查找参数值,您需要对索引表进行多次连接操作,例如:
select r.Row_Id, r.Value from Row r
join Index i1 on r.Row_Id = i1.Row_Id
join Index i2 on r.Row_Id = i2.Row_Id
join Index i3 on r.Row_Id = i3.Row_Id
where
i1.Index_Position = 1 and i1.Index_Value = '3' and
i2.Index_Position = 2 and i2.Index_Value = '7' and
i3.Index_Position = 3 and i3.Index_Value = '42' and

编辑:基本上就是符合第一范式的要求。在一个列中有多个信息(例如允许您的FieldName列包含“FieldName(0,1)”)违反了这一点 - 这将导致以后的头痛(如您所述 - 如何解析?如何比较具有不同条目数量的行?如何查询?)。

编辑2:问题中列出的配置文件的前三行的示例数据。基本上,配置文件中的每一行都映射到Row表中的一个条目。每个单独的索引参数都映射到Index表中的一个条目(并链接回它来自哪个行):

行ID、字段名称、值

1,“Field0”,“0”

2,“Field1”,“0.01”

3,“Field1”,“0.02”

索引

行ID、索引位置、索引值

2,1,0

2,2,0

3,1,0

3, 2, 1


Graham,你能给我一个数据表中的简短示例,这样我就可以想象出我正在查看什么吗? - BenAlabaster
哦,好的,现在我明白了。我被困在将字段名视为主键并试图围绕它进行映射的思维误区中。这就是为什么我一直难以理解的原因! - BenAlabaster

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接