从WAV文件解码DTMF信号

9

继我之前的问题后,我的目标是从C#中检测WAV文件中的DTMF音调。然而,我真的很难理解如何完成这个任务。

我知道DTMF使用一组频率,并且可以使用Goertzel算法来实现...某种方式。我拿了一个Goertzel代码片段并尝试将.WAV文件塞进去(使用NAudio读取文件,该文件是8KHz单声道16位PCM WAV):

 using (WaveFileReader reader = new WaveFileReader(@"dtmftest_w.wav"))
  {
      byte[] buffer = new byte[reader.Length];

      int read = reader.Read(buffer, 0, buffer.Length);
      short[] sampleBuffer = new short[read/2];
      Buffer.BlockCopy(buffer, 0, sampleBuffer, 0, read/2);
      Console.WriteLine(CalculateGoertzel(sampleBuffer,8000,16));                 
   }

 public static double CalculateGoertzel(short[] sample, double frequency, int samplerate)
   {
      double Skn, Skn1, Skn2;
      Skn = Skn1 = Skn2 = 0;
      for (int i = 0; i < sample.Length; i++)
         {
            Skn2 = Skn1;
            Skn1 = Skn;
            Skn = 2 * Math.Cos(2 * Math.PI * frequency / samplerate) * Skn1 - Skn2 + sample[i];
         }
      double WNk = Math.Exp(-2 * Math.PI * frequency / samplerate);
      return 20 * Math.Log10(Math.Abs((Skn - WNk * Skn1)));
    }

我知道我的做法是错误的:我认为应该遍历缓冲区,每次只对少量数据计算Goertzel值-这样做正确吗?
其次,我不太理解Goertzel方法的输出告诉我什么:返回一个double(例如:210.985812),但我不知道如何将其与音频文件中DTMF音调的存在和值相对应。
我已经到处搜索答案,包括答案中提到的库;不幸的是,这里的代码似乎不起作用(正如网站上的评论中所述)。TAPIEx提供了一款商业库;我已经尝试过他们的评估库,它正好满足我的需求-但他们没有回复邮件,这让我对实际购买他们的产品感到怀疑。
我非常清楚地知道自己在寻找答案时可能并不知道确切的问题,但最终我只需要一种在.WAV文件中查找DTMF音调的方法。我走对了吗?如果不是,有没有人可以指点我正确的方向?
编辑:使用@Abbondanza的代码为基础,并在(可能根本是错误的)假设需要一点一点地滴入音频文件的情况下,我现在有了这个(非常粗糙的概念验证)代码:
const short sampleSize = 160;

using (WaveFileReader reader = new WaveFileReader(@"\\mac\home\dtmftest.wav"))
        {           
            byte[] buffer = new byte[reader.Length];

            reader.Read(buffer, 0, buffer.Length);

            int bufferPos = 0;

            while (bufferPos < buffer.Length-(sampleSize*2))
            {
                short[] sampleBuffer = new short[sampleSize];
                Buffer.BlockCopy(buffer, bufferPos, sampleBuffer, 0, sampleSize*2);


                var frequencies = new[] {697.0, 770.0, 852.0, 941.0, 1209.0, 1336.0, 1477.0};

                var powers = frequencies.Select(f => new
                {
                    Frequency = f,
                   Power = CalculateGoertzel(sampleBuffer, f, 8000)              
                });

                const double AdjustmentFactor = 1.05;
                var adjustedMeanPower = AdjustmentFactor*powers.Average(result => result.Power);

                var sortedPowers = powers.OrderByDescending(result => result.Power);
                var highestPowers = sortedPowers.Take(2).ToList();

                float seconds = bufferPos / (float)16000;

                if (highestPowers.All(result => result.Power > adjustedMeanPower))
                {
                    // Use highestPowers[0].Frequency and highestPowers[1].Frequency to 
                    // classify the detected DTMF tone.

                    switch (Convert.ToInt32(highestPowers[0].Frequency))
                    {
                        case 1209:
                            switch (Convert.ToInt32(highestPowers[1].Frequency))
                            {
                                case 697:
                                    Console.WriteLine("1 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 770:
                                    Console.WriteLine("4 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 852:
                                    Console.WriteLine("7 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 941:
                                    Console.WriteLine("* pressed at " + bufferPos);
                                    break;
                            }
                            break;
                        case 1336:
                            switch (Convert.ToInt32(highestPowers[1].Frequency))
                            {
                                case 697:
                                    Console.WriteLine("2 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 770:
                                    Console.WriteLine("5 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 852:
                                    Console.WriteLine("8 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 941:
                                    Console.WriteLine("0 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                            }
                            break;
                        case 1477:
                            switch (Convert.ToInt32(highestPowers[1].Frequency))
                            {
                                case 697:
                                    Console.WriteLine("3 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 770:
                                    Console.WriteLine("6 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 852:
                                    Console.WriteLine("9 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 941:
                                    Console.WriteLine("# pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                            }
                            break;
                    }
                }
                else
                {
                    Console.WriteLine("No DTMF at " + bufferPos + " (" + seconds + "s)");
                }
                bufferPos = bufferPos + (sampleSize*2);
            }

这是在Audacity中查看的示例文件;我添加了已按下的DTMF按键- enter image description here 几乎可以正常工作,但从上面的文件来看,我不应该看到任何DTMF直到接近3秒钟,然而我的代码报告:
9 pressed at 1920 (0.12s)
1 pressed at 2880 (0.18s)
* pressed at 3200
1 pressed at 5120 (0.32s)
1 pressed at 5440 (0.34s)
7 pressed at 5760 (0.36s)
7 pressed at 6080 (0.38s)
7 pressed at 6720 (0.42s)
5 pressed at 7040 (0.44s)
7 pressed at 7360 (0.46s)
7 pressed at 7680 (0.48s)
1 pressed at 8000 (0.5s)
7 pressed at 8320 (0.52s)

直到3秒钟之后,它才开始稳定下来给出正确的答案:即按下了1键。

7 pressed at 40000 (2.5s)
# pressed at 43840 (2.74s)
No DTMF at 44800 (2.8s)
1 pressed at 45120 (2.82s)
1 pressed at 45440 (2.84s)
1 pressed at 46080 (2.88s)
1 pressed at 46720 (2.92s)
4 pressed at 47040 (2.94s)
1 pressed at 47360 (2.96s)
1 pressed at 47680 (2.98s)
1 pressed at 48000 (3s)
1 pressed at 48960 (3.06s)
4 pressed at 49600 (3.1s)
1 pressed at 49920 (3.12s)
1 pressed at 50560 (3.16s)
1 pressed at 51520 (3.22s)
1 pressed at 52160 (3.26s)
4 pressed at 52480 (3.28s)

如果我将 AdjustmentFactor 提高到1.2以上,几乎无法检测出任何东西。
我感觉我就快成功了,但有人能看出我漏掉了什么吗?
编辑2:上面的测试文件可以在此处下载:here。上面示例中的 adjustedMeanPower47.6660450354638,功率如下:

enter image description here


我在我的回答中添加了一段代码片段。如果它对您解决问题有所帮助,请告诉我。 - Good Night Nerd Pride
@SteveFord:这是否意味着我应该以40毫秒的时间段遍历文件? - KenD
@Abbondanza:已经有了,谢谢 - 请看上面,希望我快要解决这个问题了! - KenD
看起来你已经接近成功了!你能把powers的内容和adjustedMeanPower的值添加到你的调试输出中吗?另外,出于好奇,我想稍微调整一下那个问题。你有办法让我能够访问你的测试WAV文件吗? - Good Night Nerd Pride
1
@KenD,我重新编写了原型。它在缺失和存在频率之间提供了更加明显的幅度差异。而且速度更快(尽管还没有完全优化)。我强烈建议你查看我回答中的第三个(最终的 ;))更新。完整代码:http://pastebin.com/serxw5nG - Good Night Nerd Pride
显示剩余7条评论
1个回答

9
CalculateGoertzel()计算提供的样本中所选频率的功率
对于DTMF频率(697、770、852、941、1209、1336和1477 Hz),计算每个频率的功率,然后对结果进行排序并选择最高的两个。如果两者都高于某个特定阈值,则检测到了DTMF音调。
阈值的使用取决于样本的信噪比(SNR)。首先,计算所有Goerzel值的平均值,将平均值乘以一个因子(例如2或3),然后检查最高的两个Goerzel值是否超过该值,这应该足以开始。
以下是一段代码片段,以更正式的方式表达我的意思:
var frequencies = new[] {697.0, 770.0, 852.0, 941.0, 1209.0, 1336.0, 1477.0};

var powers = frequencies.Select(f => new
{
    Frequency = f,
    Power = CalculateGoerzel(sample, f, samplerate)
});

const double AdjustmentFactor = 1.0;
var adjustedMeanPower = AdjustmentFactor * powers.Average(result => result.Power);

var sortedPowers = powers.OrderByDescending(result => result.Power);
var highestPowers = sortedPowers.Take(2).ToList();

if (highestPowers.All(result => result.Power > adjustedMeanPower))
{
    // Use highestPowers[0].Frequency and highestPowers[1].Frequency to 
    // classify the detected DTMF tone.
}

1.0AdjustmentFactor开始。如果您从测试数据中得到了误报(即在不应该有DTMF音调的样本中检测到了DTMF音调),请逐渐增加它,直到误报停止。


更新#1

我尝试了您的代码并对其进行了一些调整:

在Goertzel计算之后实现了可枚举性(对于性能很重要):

var powers = frequencies.Select(f => new
{
    Frequency = f,
    Power = CalculateGoertzel(sampleBuffer, f, 8000)
// Materialize enumerable to avoid multiple calculations.
}).ToList();

我没有使用调整后的均值进行阈值处理。我只是将100.0作为阈值使用:

if (highestPowers.All(result => result.Power > 100.0))
{
     ...
}

我将样本量加倍了(我相信您使用的是160):

int sampleSize = 160 * 2;

我修复了您的DTMF分类。我使用嵌套字典来捕获所有可能的情况:

var phoneKeyOf = new Dictionary<int, Dictionary<int, string>>
{
    {1209, new Dictionary<int, string> {{1477, "?"}, {1336, "?"}, {1209, "?"}, {941, "*"}, {852, "7"}, {770, "4"}, {697, "1"}}},
    {1336, new Dictionary<int, string> {{1477, "?"}, {1336, "?"}, {1209, "?"}, {941, "0"}, {852, "8"}, {770, "5"}, {697, "2"}}},
    {1477, new Dictionary<int, string> {{1477, "?"}, {1336, "?"}, {1209, "?"}, {941, "#"}, {852, "9"}, {770, "6"}, {697, "3"}}},
    { 941, new Dictionary<int, string> {{1477, "#"}, {1336, "0"}, {1209, "*"}, {941, "?"}, {852, "?"}, {770, "?"}, {697, "?"}}},
    { 852, new Dictionary<int, string> {{1477, "9"}, {1336, "8"}, {1209, "7"}, {941, "?"}, {852, "?"}, {770, "?"}, {697, "?"}}},
    { 770, new Dictionary<int, string> {{1477, "6"}, {1336, "5"}, {1209, "4"}, {941, "?"}, {852, "?"}, {770, "?"}, {697, "?"}}},
    { 697, new Dictionary<int, string> {{1477, "3"}, {1336, "2"}, {1209, "1"}, {941, "?"}, {852, "?"}, {770, "?"}, {697, "?"}}}
}

手机密码可以通过以下方式获取:
var key = phoneKeyOf[(int)highestPowers[0].Frequency][(int)highestPowers[1].Frequency];

结果并不完美,但比较可靠。

更新 #2

我想我找到了问题所在,但目前无法自行尝试。你不能直接将目标频率传递给 CalculateGoertzel()。它必须被归一化以使其居于 DFT 二进制中心。在计算功率时,请尝试以下方法:

var powers = frequencies.Select(f => new
{
    Frequency = f,
    // Pass normalized frequenzy
    Power = CalculateGoertzel(sampleBuffer, Math.Round(f*sampleSize/8000.0), 8000)
}).ToList();

同时你需要在代码中使用205作为sampleSize,以最小化误差。


更新#3

我重新编写了原型,使用了NAudio的ISampleProvider接口,该接口返回归一化的样本值(floats范围为[-1.0;1.0])。此外,我从头开始编写了CalculateGoertzel()函数。虽然它仍未经过性能优化,但在频率之间提供了更加明显的功率差异。当我在您的测试数据上运行它时,不再出现错误提示。强烈建议您查看一下:http://pastebin.com/serxw5nG


更新#4

我创建了一个GitHub项目两个NuGet包,用于检测实时(captured)音频和预录制音频文件中的DTMF音调。


1
第二次更新对我没有起作用,恐怕我从测试文件中没有得到任何结果。然而,第一次更新的代码(几乎)完美地工作,肯定足够满足我的需求。非常感谢您的帮助,没有您我不可能想出这个解决方案! - KenD
1
@moose,太遗憾了,你没有时间提交一个简单的错误报告或者至少解释一下。我得看看什么时候有时间来烦一下。 - Good Night Nerd Pride
1
@moose,我已经验证了你的问题并在 github 网站上创建了一个问题。如果你有任何想法:评论和拉取请求将不胜感激。 - Good Night Nerd Pride
1
@developer01,最后一步(分类)需要实现。 - Good Night Nerd Pride
1
@developer01,我在帖子中提到的C#库可以处理这些。请查看GitHub上的检测器实现以了解它是如何做到的。 - Good Night Nerd Pride
显示剩余4条评论

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接