Nano Hash - криптовалюты, майнинг, программирование

Указание пути к акустической модели в pocketsphinx

Я хочу создать небольшую «диалоговую систему» ​​на основе фонем, которая слушает речь, преобразует ее в строку фонем (как бы неправильно это ни было), обрабатывает/сохраняет их и воспроизводит на уровне фонемы. я стремлюсь использовать либо фестиваль / mbrola с ним, либо espeak. все работает на Raspberry Pi (проект называется babble pi).

я следовал очень хорошим инструкциям здесь: https://wolfpaulus.com/jounal/embedded/raspberrypi2-sr/

и я также получаю хорошее признание с помощью команды:

pocketsphinx_continuous -hmm /usr/local/share/pocketsphinx/model/en-us/en-us -lm 3199.lm -dict 3199.dic -samprate 16000/8000/48000 -inmic yes

теперь я прочитал эту статью о распознавании фонем здесь, на сайте sourceforge: http://cmusphinx.sourceforge.net/wiki/phonemerecognition

а также понял, что у prealpha5 явно новый бинарный формат. в статье о распознавателе фонем говорится, что в основном распознаватель английских фонем является частью установочного пакета по умолчанию, и поэтому предлагается протестировать его через:

pocketsphinx_continuous -infile test/data/goforward.raw -hmm en-us -allphone model/en-us/en-us-phone.lm.dmp -backtrace yes -beam 1e-20 -pbeam 1e-20 -lw 2.0

Я предполагаю, что статья о фонемах относится к более старым версиям (pocket-)sphinx, поскольку она относится к .dmp вместо расширения файла .bin, и поэтому я попробовал:

pocketsphinx_continuous -infile test/data/goforward.raw -hmm en-us -allphone model/en-us/en-us-phone.lm.bin -backtrace yes -beam 1e-20 -pbeam 1e-20 -lw 2.0

но я получил следующую ошибку:

ERROR: "acmod.c", line 83: Folder 'en-us' does not contain acoustic model definition 'mdef'

глядя на en-us, там на самом деле только .dict, .lm.bin и телефонный файл. и еще один каталог en-us, содержащий файл mdef, а также несколько других. копирование не помогает.

так что делать? удалить prealpha5 и установить версию 4? или я могу скачать нужный файл где-нибудь?


Ответы:


1

Аргумент параметра -hmm, который вы установили в en-us, является путем к папке. В вашем случае это относительный путь. Если путь lm равен model/en-us/en-us-phone.lm.bin, то путь -hmm должен быть model/en-us/en-us, а не просто en-us.

05.08.2015
  • хорошо, так что ваш намек был в правильном направлении, я думаю. на самом деле en-us/en-us не работал, но модель/en-us/en-us приводила к тому, что программа работала до INFO: Continuous.c(303): pocketsphinx_continuous COMPILED ON ‹date›, а затем это занимает около 40 секунд на Raspberry Pi 2 и я получаю список телефонов. так что ДА это работает! но: вау, это так медленно! я читал, что он загружает 130 тысяч слов, это делает его медленным? Могу ли я обрезать файл .dict до первых 10 КБ (при условии, что они отсортированы по частоте)? 06.08.2015
  • Фонетическое распознавание происходит медленно, поскольку учитывает огромное количество вариантов. Вы можете добавить параметр командной строки -allphone_ci yes к аргументам командной строки, чтобы сделать его быстрее, но менее точным. Словарный запас в 130 тысяч слов не имеет значения. 06.08.2015
  • Новые материалы

    Кластеризация: более глубокий взгляд
    Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

    Как написать эффективное резюме
    Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

    Частный метод Python: улучшение инкапсуляции и безопасности
    Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

    Как я автоматизирую тестирование с помощью Jest
    Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

    Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
    Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

    Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
    В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

    Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
    В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..