如何使用Microsoft.Speech中的DTMFRecognitionEngine类

7

Microsoft.Speech SDK有一个名为DTMFRecognitionEngine的类,我想要进行实验-我们需要在WAV文件中检测DTMF音调(我意识到有其他方法可以做到这一点,但我正在评估所有可能的方法)。

文档没有清楚地说明如何实际使用该类:它的伴随类SpeechRecognitionEngine有很多示例和漂亮明确的方法,例如SetInputToWaveFileDTMFRecognitionEngine没有任何这样的方法。

有人能提供关于如何在自己的代码中使用此组件的见解吗?

编辑: 看起来没有什么办法可以使用这个类来做很多事情。 我正在寻找一个库,可以让我检测音频文件中 DTMF 数字的位置和持续时间。 我已经看过 TapiEx,但他们没有回复邮件。 如果有其他建议,将不胜感激...


...然后,立刻就有一个“过于宽泛”的关闭投票。不确定如何使问题更“狭窄”,因为实际文档本身并没有给出太多线索?看来我不是唯一一个这样的人:http://www.codeproject.com/Questions/423912/How-to-detect-a-DTMF-sound - KenD
我认为困难的部分就是直接要求源代码示例。也许有一种重新表述这个问题的方式,可以使它不那么像“请给我代码”,而更像“有人能提供一下这部分是如何工作的见解吗?” - user4842163
不幸的是,这种社区评审系统可能会阻止那些可能不会仔细查看帖子的人保留否决投票。如果它被关闭,通过这个编辑,我认为它应该通过,并且您应该能够重新打开它。同时,在您进行此操作时,您编辑和添加的细节越多,就越好。使用这种奇特的API/文档可能很难找到有关此问题的帮助 - 但祝你好运! - user4842163
1个回答

2
似乎不可能实现。我甚至通过获取DtmfRecognitionEngine的私有_engine并调用其SetInputToWaveFile进行尝试,但没有成功。显然,将音调传输到DtmfRecognitionEngine的唯一方法是调用AddTone()。 我已经包含了一个样例语法文件和一些源代码供您参考。有趣的是,如果您取消注释dre.AddTone(),您会发现sre的事件和dre的事件都被触发了。
将调用切换到sre.RecognizeAsync()也无济于事。
看起来您需要使用不同的库...
PinGrammar.xml
<?xml version="1.0"?>
<grammar mode="dtmf" version="1.0"
         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
         xsi:schemaLocation="http://www.w3.org/2001/06/grammar 
                             http://www.w3.org/TR/speech-grammar/grammar.xsd"
         xmlns="http://www.w3.org/2001/06/grammar"
         root="pin">

  <rule id="digit">
    <one-of>
      <item> 0 </item>
      <item> 1 </item>
      <item> 2 </item>
      <item> 3 </item>
      <item> 4 </item>
      <item> 5 </item>
      <item> 6 </item>
      <item> 7 </item>
      <item> 8 </item>
      <item> 9 </item>
    </one-of>
  </rule>

  <rule id="pin" scope="public">
    <one-of>
      <item>
        <item repeat="4">
          <ruleref uri="#digit"/>
        </item>
        #
      </item>
      <item>
        * 9
      </item>
    </one-of>
  </rule>

</grammar>

来源:

using Microsoft.Speech.Recognition;
using System.Reflection;

namespace DTMF_Recognition
{
    class Program
    {
        static void Main(string[] args)
        {
            Grammar grammar = null;
            grammar = new Grammar("PinGrammar.xml");

            DtmfRecognitionEngine dre = new DtmfRecognitionEngine();
            dre.DtmfRecognized += dre_DtmfRecognized;

            FieldInfo field = typeof(DtmfRecognitionEngine).GetField("_engine", BindingFlags.NonPublic | BindingFlags.GetField | BindingFlags.Instance);
            var wrapper = field.GetValue(dre);
            FieldInfo engineField = wrapper.GetType().GetField("_engine", BindingFlags.NonPublic | BindingFlags.GetField | BindingFlags.Instance);
            SpeechRecognitionEngine sre = (SpeechRecognitionEngine)engineField.GetValue(wrapper);

            dre.DtmfHypothesized += dre_DtmfHypothesized;
            dre.DtmfRecognitionRejected += dre_DtmfRecognitionRejected;
            dre.RecognizeCompleted += dre_RecognizeCompleted;
            dre.LoadGrammar(grammar);

            //dre.AddTone(DtmfTone.One);
            //dre.AddTone(DtmfTone.Two);
            //dre.AddTone(DtmfTone.Three);
            //dre.AddTone(DtmfTone.Four);
            //dre.AddTone(DtmfTone.Hash);

            sre.SetInputToWaveFile(@"C:\Users\Clay Ver Valen\Desktop\3.wav");
            sre.SpeechHypothesized += sre_SpeechHypothesized;
            sre.SpeechDetected += sre_SpeechDetected;
            sre.SpeechRecognitionRejected += sre_SpeechRecognitionRejected;

            dre.RecognizeAsync();
            System.Threading.Thread.Sleep(30000);
        }

        static void sre_SpeechRecognitionRejected(object sender, SpeechRecognitionRejectedEventArgs e)
        {
            int i = 1;
        }

        static void sre_SpeechHypothesized(object sender, SpeechHypothesizedEventArgs e)
        {
            int i = 1;
        }

        static void sre_SpeechDetected(object sender, SpeechDetectedEventArgs e)
        {
            int i = 1;
        }

        static void dre_DtmfRecognitionRejected(object sender, DtmfRecognitionRejectedEventArgs e)
        {
            int i = 1;
        }

        static void dre_DtmfHypothesized(object sender, DtmfHypothesizedEventArgs e)
        {
            int i = 1;
        }

        static void dre_RecognizeCompleted(object sender, DtmfRecognizeCompletedEventArgs e)
        {
            int i = 1;
        }

        static void dre_DtmfRecognized(object sender, DtmfRecognizedEventArgs e)
        {
            int i = 1;
        }
    }
}

你需要自己的带有DTMF音调的WAV文件,不过我想你已经有了... - Clay Ver Valen
1
我担心情况会是这样。我已经查看了TapiEx组件,但他们没有回复我的邮件,这让我很担心...我将更新原始问题:有人可以建议一个库,可以检测DTMF音调(以便删除它们,所以我需要音调的确切位置和持续时间)吗? - KenD

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接