我经常使用 B-Splines 进行回归。到目前为止,我从未需要详细了解 bs
的输出:我只会选择我感兴趣的模型,并用 lm
拟合它。然而,我现在需要在外部(非 R )代码中复现一个B-spline模型。那么,bs
生成的矩阵意味着什么?例如:
x <- c(0.0, 11.0, 17.9, 49.3, 77.4)
bs(x, df = 3, degree = 1) # generate degree 1 (linear) B-splines with 2 internal knots
# 1 2 3
# [1,] 0.0000000 0.0000000 0.0000000
# [2,] 0.8270677 0.0000000 0.0000000
# [3,] 0.8198433 0.1801567 0.0000000
# [4,] 0.0000000 0.7286085 0.2713915
# [5,] 0.0000000 0.0000000 1.0000000
# attr(,"degree")
# [1] 1
# attr(,"knots")
# 33.33333% 66.66667%
# 13.30000 38.83333
# attr(,"Boundary.knots")
# [1] 0.0 77.4
# attr(,"intercept")
# [1] FALSE
# attr(,"class")
# [1] "bs" "basis" "matrix"
好的,所以我在输入中指定了degree
为1。 knots
告诉我两个内部结节分别位于 x = 13.3000 和 x = 38.8333 处,看到结节位于固定的分位数上有些惊讶。我希望 R 能够找到最适合我的数据的分位数,但这会使模型不再线性,并且在不知道响应数据的情况下是不可能的。intercept = FALSE
表示基函数中未包括截距(这是件好事吗?我一直被教导不要在没有截距的情况下拟合线性模型...好吧,猜想 lm
仍然会添加一个截距)。
然而,矩阵怎么办?我不太明白如何解释它。有三列,我认为意味着基函数有三个。这是有道理的:如果我有两个内部结节 K1
和 K2
,那么我将在左边界结节 B1
和 K1
之间拥有一个样条,另一个样条在 K1
和 K2
之间,最后一个样条在 K2
和 B2
之间,所以......三个基函数,好的。但是哪些是基函数呢?例如,这一列表示什么?
# 1
# [1,] 0.0000000
# [2,] 0.8270677
# [3,] 0.8198433
# [4,] 0.0000000
# [5,] 0.0000000
编辑:这个问题与这个问题类似但不完全相同。那个问题问的是回归系数的解释,但我想先了解模型矩阵系数的含义。如果我尝试按照第一个答案建议的制作相同的图表,我会得到一个混乱的图表:
b <- bs(x, df = 3, degree = 1)
b1 <- b[, 1] ## basis 1
b2 <- b[, 2] ## basis 2
b3 <- b[,3]
par(mfrow = c(1, 3))
plot(x, b1, type = "l", main = "basis 1: b1")
plot(x, b2, type = "l", main = "basis 2: b2")
plot(x, b3, type = "l", main = "basis 3: b3")
这些不能是B样条基函数,因为它们有太多的节点(每个函数应该只有一个节点)。
第二个答案实际上可以让我在R之外重建我的模型,所以我想我可以选择那个答案。然而,也就是那个答案并没有准确地解释b
矩阵中的元素:它涉及线性回归的系数,在这里我还没有介绍过。确实,那是我的最终目标,但我也想理解这个中间步骤。
b
的列在我看来不是基函数,而是基函数在样本点x <- c(0.0, 11.0, 17.9, 49.3, 77.4)
中获得的值。继续... - DeltaIVx
中,则可以获得您相同的绘图。在您的答案中,如果我理解正确,样本点和结节是相同的,因此这个问题不会出现。然而,在我的情况下,它们并不相同,这就是为什么我的矩阵b
包含与0
和1
不同的元素的原因。也许对您来说,这两种情况是相同的,但我看不出来。 - DeltaIV