Декодирование DTMF из WAV-файла

исходя из моего ранее вопрос, моя цель-обнаружить DTMF-тоны в WAV-файле с C#. Однако, я действительно пытаюсь понять, как это можно сделать.

Я понимаю, что DTMF использует комбинацию частот, и может использоваться алгоритм Гертцеля ... как-то. Я схватил фрагмент кода Гертцеля ,и я попытался толкнуть.WAV-файл в него (используя NAudio для чтения файла, который является моно-16-битным PCM WAV 8 кГц):

 using (WaveFileReader reader = new WaveFileReader(@"dtmftest_w.wav"))
  {
      byte[] buffer = new byte[reader.Length];

      int read = reader.Read(buffer, 0, buffer.Length);
      short[] sampleBuffer = new short[read/2];
      Buffer.BlockCopy(buffer, 0, sampleBuffer, 0, read/2);
      Console.WriteLine(CalculateGoertzel(sampleBuffer,8000,16));                 
   }

 public static double CalculateGoertzel(short[] sample, double frequency, int samplerate)
   {
      double Skn, Skn1, Skn2;
      Skn = Skn1 = Skn2 = 0;
      for (int i = 0; i < sample.Length; i++)
         {
            Skn2 = Skn1;
            Skn1 = Skn;
            Skn = 2 * Math.Cos(2 * Math.PI * frequency / samplerate) * Skn1 - Skn2 + sample[i];
         }
      double WNk = Math.Exp(-2 * Math.PI * frequency / samplerate);
      return 20 * Math.Log10(Math.Abs((Skn - WNk * Skn1)));
    }

I знаете, что я делаю неправильно: я предполагаю, что я должен перебирать буфер и вычислять значение Goertzel только для небольшого куска за раз - это правильно?

во-вторых, я действительно не понимаю, что мне говорит вывод метода Гертцеля :я получаю двойной (пример:210.985812) вернулся, но я не знаю, чтобы приравнять это к наличию и значению тона DTMF в аудиофайле.

Я везде искал ответ, включая библиотеки ссылка в этой ответ; К сожалению, этот код здесь не работает (как отмечено в комментариях на сайте). Есть коммерческий библиотеке TAPIEx; Я пробовал их библиотеку оценки, и она делает именно то, что мне нужно, но они не отвечают на электронные письма, что заставляет меня опасаться фактической покупки их продукта.

Я очень сознаю, что я ищу ответ, когда, возможно, я не знаю точного вопрос, но в конечном счете все, что мне нужно, это способ найти DTMF-тона в a .WAV-файл. Я на правильном пути, и если нет, Может ли кто-нибудь указать мне в правильном направлении?

EDIT: используя код @Abbondanza в качестве основы, и на (вероятно, принципиально неправильном) предположении, что мне нужно капать небольшие разделы аудиофайла, у меня теперь есть этот (очень грубый, только доказательство концепции) код:

const short sampleSize = 160;

using (WaveFileReader reader = new WaveFileReader(@"machomedtmftest.wav"))
        {           
            byte[] buffer = new byte[reader.Length];

            reader.Read(buffer, 0, buffer.Length);

            int bufferPos = 0;

            while (bufferPos < buffer.Length-(sampleSize*2))
            {
                short[] sampleBuffer = new short[sampleSize];
                Buffer.BlockCopy(buffer, bufferPos, sampleBuffer, 0, sampleSize*2);


                var frequencies = new[] {697.0, 770.0, 852.0, 941.0, 1209.0, 1336.0, 1477.0};

                var powers = frequencies.Select(f => new
                {
                    Frequency = f,
                   Power = CalculateGoertzel(sampleBuffer, f, 8000)              
                });

                const double AdjustmentFactor = 1.05;
                var adjustedMeanPower = AdjustmentFactor*powers.Average(result => result.Power);

                var sortedPowers = powers.OrderByDescending(result => result.Power);
                var highestPowers = sortedPowers.Take(2).ToList();

                float seconds = bufferPos / (float)16000;

                if (highestPowers.All(result => result.Power > adjustedMeanPower))
                {
                    // Use highestPowers[0].Frequency and highestPowers[1].Frequency to 
                    // classify the detected DTMF tone.

                    switch (Convert.ToInt32(highestPowers[0].Frequency))
                    {
                        case 1209:
                            switch (Convert.ToInt32(highestPowers[1].Frequency))
                            {
                                case 697:
                                    Console.WriteLine("1 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 770:
                                    Console.WriteLine("4 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 852:
                                    Console.WriteLine("7 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 941:
                                    Console.WriteLine("* pressed at " + bufferPos);
                                    break;
                            }
                            break;
                        case 1336:
                            switch (Convert.ToInt32(highestPowers[1].Frequency))
                            {
                                case 697:
                                    Console.WriteLine("2 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 770:
                                    Console.WriteLine("5 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 852:
                                    Console.WriteLine("8 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 941:
                                    Console.WriteLine("0 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                            }
                            break;
                        case 1477:
                            switch (Convert.ToInt32(highestPowers[1].Frequency))
                            {
                                case 697:
                                    Console.WriteLine("3 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 770:
                                    Console.WriteLine("6 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 852:
                                    Console.WriteLine("9 pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                                case 941:
                                    Console.WriteLine("# pressed at " + bufferPos + " (" + seconds + "s)");
                                    break;
                            }
                            break;
                    }
                }
                else
                {
                    Console.WriteLine("No DTMF at " + bufferPos + " (" + seconds + "s)");
                }
                bufferPos = bufferPos + (sampleSize*2);
            }

это пример файла, как показано в Audacity; я добавил в DTMF нажатия клавиш, которые были нажаты -

enter image description here

и ... это почти строительство. Из файла выше я не должен видеть DTMF до почти точно 3 секунд, однако, мой код сообщает:

9 pressed at 1920 (0.12s)
1 pressed at 2880 (0.18s)
* pressed at 3200
1 pressed at 5120 (0.32s)
1 pressed at 5440 (0.34s)
7 pressed at 5760 (0.36s)
7 pressed at 6080 (0.38s)
7 pressed at 6720 (0.42s)
5 pressed at 7040 (0.44s)
7 pressed at 7360 (0.46s)
7 pressed at 7680 (0.48s)
1 pressed at 8000 (0.5s)
7 pressed at 8320 (0.52s)

... пока не дойдет до 3 секунд, а потом он начинает успокаиваться на правильном ответе: что 1 была нажата:

7 pressed at 40000 (2.5s)
# pressed at 43840 (2.74s)
No DTMF at 44800 (2.8s)
1 pressed at 45120 (2.82s)
1 pressed at 45440 (2.84s)
1 pressed at 46080 (2.88s)
1 pressed at 46720 (2.92s)
4 pressed at 47040 (2.94s)
1 pressed at 47360 (2.96s)
1 pressed at 47680 (2.98s)
1 pressed at 48000 (3s)
1 pressed at 48960 (3.06s)
4 pressed at 49600 (3.1s)
1 pressed at 49920 (3.12s)
1 pressed at 50560 (3.16s)
1 pressed at 51520 (3.22s)
1 pressed at 52160 (3.26s)
4 pressed at 52480 (3.28s)

если я поднимусь AdjustmentFactor за 1.2, я получаю очень мало обнаружение в все.

Я чувствую, что я почти там, но кто-нибудь может видеть, что я упускаю?

EDIT2: тестовый файл выше доступен здесь. The adjustedMeanPower в приведенном выше примере это 47.6660450354638, и полномочия:

enter image description here

1 ответов


CalculateGoertzel() возвращает сила выбранной частоты внутри обеспеченный образец.

рассчитайте эту мощность для каждой из частот DTMF(697, 770, 852, 941, 1209, 1336, и 1477 Гц), отсортируйте полученные мощности и выберите самые высокие два. Если оба выше определенного порога, то был обнаружен тон DTMF.

то, что вы используете в качестве порога, зависит от отношения сигнал / шум (SNR) вашего образца. Для начала достаточно вычислите среднее всех значений Goerzel, умножьте среднее на коэффициент (например, 2 или 3) и проверьте, превышают ли два самых высоких значения Goerzel это значение.

вот фрагмент кода, чтобы выразить то, что я имею в виду в более формальном виде:

var frequencies = new[] {697.0, 770.0, 852.0, 941.0, 1209.0, 1336.0, 1477.0};

var powers = frequencies.Select(f => new
{
    Frequency = f,
    Power = CalculateGoerzel(sample, f, samplerate)
});

const double AdjustmentFactor = 1.0;
var adjustedMeanPower = AdjustmentFactor * powers.Average(result => result.Power);

var sortedPowers = powers.OrderByDescending(result => result.Power);
var highestPowers = sortedPowers.Take(2).ToList();

if (highestPowers.All(result => result.Power > adjustedMeanPower))
{
    // Use highestPowers[0].Frequency and highestPowers[1].Frequency to 
    // classify the detected DTMF tone.
}

начинается с AdjustmentFactor of 1.0. Если вы получаете ложные срабатывания от ваших тестовых данных (т. е. вы обнаруживаете DTMF-сигналы в образцах, где не должно быть никаких DTMF-тонов), продолжайте увеличивать его до ложных срабатываний остановка.


обновление #1

я попробовал ваш код в wave-файле и настроил несколько вещей:

я материализовал перечисляемое после расчета Гертцеля (важно для производительности):

var powers = frequencies.Select(f => new
{
    Frequency = f,
    Power = CalculateGoertzel(sampleBuffer, f, 8000)
// Materialize enumerable to avoid multiple calculations.
}).ToList();

я не использовал скорректированное среднее значение для порога. Я просто использовал 100.0 в качестве порога:

if (highestPowers.All(result => result.Power > 100.0))
{
     ...
}

я удвоил размер выборки (я считаю, что вы использовали 160):

int sampleSize = 160 * 2;

я починил Классификация DTMF. Я использовал вложенные словари для захвата все возможные варианты:

var phoneKeyOf = new Dictionary<int, Dictionary<int, string>>
{
    {1209, new Dictionary<int, string> {{1477, "?"}, {1336, "?"}, {1209, "?"}, {941, "*"}, {852, "7"}, {770, "4"}, {697, "1"}}},
    {1336, new Dictionary<int, string> {{1477, "?"}, {1336, "?"}, {1209, "?"}, {941, "0"}, {852, "8"}, {770, "5"}, {697, "2"}}},
    {1477, new Dictionary<int, string> {{1477, "?"}, {1336, "?"}, {1209, "?"}, {941, "#"}, {852, "9"}, {770, "6"}, {697, "3"}}},
    { 941, new Dictionary<int, string> {{1477, "#"}, {1336, "0"}, {1209, "*"}, {941, "?"}, {852, "?"}, {770, "?"}, {697, "?"}}},
    { 852, new Dictionary<int, string> {{1477, "9"}, {1336, "8"}, {1209, "7"}, {941, "?"}, {852, "?"}, {770, "?"}, {697, "?"}}},
    { 770, new Dictionary<int, string> {{1477, "6"}, {1336, "5"}, {1209, "4"}, {941, "?"}, {852, "?"}, {770, "?"}, {697, "?"}}},
    { 697, new Dictionary<int, string> {{1477, "3"}, {1336, "2"}, {1209, "1"}, {941, "?"}, {852, "?"}, {770, "?"}, {697, "?"}}}
}

ключ телефона затем извлекается с помощью:

var key = phoneKeyOf[(int)highestPowers[0].Frequency][(int)highestPowers[1].Frequency];

результаты не идеальны, но несколько надежны.


обновление #2

я думаю, что понял проблему, но не могу попробовать ее сам прямо сейчас. Вы не можете передать целевой frequenzy непосредственно в CalculateGoertzel(). Он должен быть нормализован, чтобы быть центрированным контейнеры DFT. При расчете мощностей попробуйте такой подход:

var powers = frequencies.Select(f => new
{
    Frequency = f,
    // Pass normalized frequenzy
    Power = CalculateGoertzel(sampleBuffer, Math.Round(f*sampleSize/8000.0), 8000)
}).ToList();

также вы должны использовать 205 as sampleSize для того, чтобы минимизировать ошибку.


обновление #3

я переписал прототипа использовать NAudio по ISampleProvider интерфейс, который возвращает нормализованные значения выборки (floats в диапазоне [-1.0; 1.0]). И переписал CalculateGoertzel() С нуля. Он по-прежнему не оптимизирован для производительности, но дает гораздо более выраженную мощность различия между частотами. Есть нет больше ложных срабатываний, когда я запускаю ваши тестовые данные. Я настоятельно рекомендую вам взглянуть на него:http://pastebin.com/serxw5nG


обновление #4

я создал проект GitHub и два пакета NuGet для обнаружения тонов DTMF в живых (захваченных) аудио и предварительно записанных аудиофайлах.