理解FastICA实现

Question

理解FastICA实现

algorithmmatlabimage-processingmachine-learningfeature-detection

3

我正在尝试实现FastICA（独立成分分析）来进行图像的盲信号分离，但首先我想看一下从Github中产生良好结果的一些示例。我试图比较算法步骤的主循环，其中包括维基百科的FastICA，但我发现它们实际上是相同的，这让我有些困难。

它们看起来非常相似，但有一些差异我不理解。它看起来类似于Wiki中的“多组分提取”版本。

请问有人能帮我理解与非线性函数及其一、二阶导数有关的四行左右代码以及更新权重向量的第一行代码吗？非常感谢任何帮助！

这里是实现代码，变量已更改以更接近Wiki：

% X is sized (NxM, 3x50K) mixed image data matrix (one row for each mixed image) 

C=3; % number of components to separate                       

W=zeros(numofIC,VariableNum); % weights matrix  

for p=1:C       

    % initialize random weight vector of length N             
    wp = rand(C,1);                   
    wp = wp / norm(wp);  

    % like do:
    i = 1;
    maxIterations = 100; 
    while i <= maxIterations+1

       % until mat iterations 
       if i == maxIterations    
            fprintf('No convergence: ', p,maxIterations); 
            break; 
        end 

        wp_old = wp; 

        % this is the main part of the algorithm and where
        % I'm confused about the particular implementation

        u = 1; 
        t = X'*b; 
        g = t.^3; 
        dg = 3*t.^2; 
        wp = ((1-u)*t'*g*wp+u*X*g)/M-mean(dg)*wp;

        % 2nd and 3rd wp update steps make sense to me   
        wp = wp-W*W'*wp;                       
        wp = wp / norm(wp);  

        % or until w_p converges
        if abs(abs(b'*bOld)-1)<1e-10      
             W(:,p)=b;                  
             break; 
         end 

        i=i+1;         
    end 
end

而且Wiki的算法可供快速参考：

- Austin

1

我开启了这个悬赏后，就发现了我的误解:/ 如果你想获得一些分数，请继续回答。 - Austin

1个回答

网页内容由stack overflow 提供, 点击上面的

可以查看英文原文，
原文链接

- Anthony · Accepted Answer

首先，我不明白为什么代码中始终为零的术语仍然存在：

wp = ((1-u)*t'*g*wp+u*X*g)/M-mean(dg)*wp;

以上内容可以简化为：

wp = X*g/M-mean(dg)*wp;

另外，由于它总是1，因此还要删除u。

其次，我认为以下行有误：

t = X'*b;

正确的表达是：

t = X'*wp;

现在让我们逐个变量来看。我们将引用迭代方程式为：

w = E{Xg(w^TX)^T} - E{g'(w^TX)}w

。

X是您的输入数据，即迭代方程中的X。
wp是权重向量，即迭代方程中的w。其初始值是随机的。
g是一个非二次非线性函数的一阶导数，即迭代方程中的g(w^TX)。
dg是g的一阶导数，即迭代方程中的g'(w^TX)。
M虽然代码中没有给出定义，但我认为它应该是X的大小。

有了所有变量含义的知识，我们现在可以尝试理解代码。

    t = X'*b;

上述行计算了 w^TX。

    g = t.^3;

上面一行代码计算了 g(w^TX) = (w^TX)³。请注意，g(u) 可以是任何方程，只要f(u)是非线性和非二次的即可，其中 g(u) = df(u)/du。

    dg = 3*t.^2;

上面这行代码计算了 g 的导数。

    wp = X*g/M-mean(dg)*wp;

Xg 显然计算了 Xg(w^TX)。 Xg/M 计算了 Xg 的平均值，等价于 E{Xg(w^TX)^T}。

mean(dg) 是 E{g'(w^TX)} 并在方程式中乘以 wp 或 w。

现在你拥有了牛顿-拉弗森方法所需的内容。