Использование yandex speechkit для распознавания речи в 1с

Как масштабироваться при больших количествах звонков

Вначале, в 2017 году, у меня была обработка, которая распознавала короткие аудиозаписи.

В дальнейшем я перешел на распознавание длинных аудио – сейчас расскажу, почему.

Короткие аудиозаписи распознаются следующим образом:

  • сначала одна обработка ожидания проходит по списку звуковых файлов, назначает им, в каком потоке они будут отправлены в Яндекс, и завершает свою работу;

  • далее запускается обработка каждого потока, которая берет только звонки, которые принадлежат этому потоку – это позволяет масштабироваться.

При моей нагрузке мне было достаточно четыре потока отправки на Яндекс-расшифровку.

Напомню, что это распознавание коротких аудио.

Чем различаются короткие аудио от длинных? Короткие аудио-файлы распознаются онлайн – это стоит дороже и размер файла коротких аудио должен быть не больше одного мегабайта (не больше 30 секунд).

Соответственно, берется звуковой файл телефонного звонка, он нарезается на кусочки по 30 секунд с помощью программы sox, о которой я говорил выше, и далее каждый кусочек отправляется на Яндекс-расшифровку.

Отправляется он последовательно:

  • сначала отправляется первый кусочек, дожидается ответ и записывается в поле расшифровки справочных звонков;

  • далее отправляется второй кусочек, и далее третий – и так, пока не распознали весь звонок.

  • если все хорошо и ни один из кусочков не вернул ошибок, тогда помечаем звонок как обработанный.

Все это хорошо работало где-то с 2017 года по осень 2019, когда начались проблемы с тем, что при обработке телефонного звонка, нарезанного на шесть кусков, два из них могли вернуть ошибку. При повторной отправке через несколько минут снова один кусок мог вернуть ошибку и т.д.

Проблему долго решали со службой поддержки Яндекса, но так и не смогли решить. Так как мне не требовалось именно онлайн-распознавание, они предложили перейти на офлайн-расшифровку длинных аудиозаписей.

Распознавание длинных аудиозаписей происходит вот так:

  • одна обработка перебирает телефонные звонки и создает элементы в справочнике «Звонки» «1С:Управление торговлей»;

  • далее она же отправляет эти звонки в Yandex Object Storage, получает на ссылку на загруженные файлы;

  • далее она же отправляет эти ссылки на расшифровку – у Yandex SpeechKit есть ограничение, что одна минута расшифровки занимает около 10 секунд;

  • при следующей итерации эта же обработка проверяет, расшифровались эти звонки или нет – если расшифровка готова, этот текст получается и записывается в элемент справочника.

Поскольку в данном случае расшифровка производится не в онлайн-режиме, общение с Яндексом происходит очень быстро.

Единственная нагрузка – когда заливаешь звуковой телефонный разговор на Yandex Object Storage. Но в принципе, при 30 мегабит интернета это занимает несколько секунд. Напомню, что размеры wav-файлов и так достаточно маленькие, тем более что менеджеры у нас обычно общаются по 10-15 минут, не больше.

У распознавания длинных аудио есть свои лимиты – один гигабайт на размер файла или не более 4 часов. Но у нас ни один из менеджеров данный лимит не превысил.

Первоначально при распознавании коротких аудио у меня возникла проблема с нагрузкой на систему – отправка кусочков аудио у меня на тот момент была реализована через функции 1С, мне нужно было запускать 1С в четырех потоках, и каждый из потоков общался с Яндексом. Потоки могли подвисать, их нужно было перезапускать.

В дальнейшем я перешел на Curl – я в 1С запускаю Curl, он кушает меньше памяти, соответственно, он уже общается с Яндексом по отправке кусочков данных. В этом варианте зависания были решены.

При распознавании длинных аудио я тоже все общение с Яндексом вынес в Curl – 1С только запускает внешнюю команду, а все дальнейшие действия уже осуществляется через Curl.

Reviews

http-equiv=»Content-Type» content=»text/html;charset=UTF-8″>lass=»plugin-reviews»>

I’ve tried several text-to-speech services and found Speechkit to be the best. It’s easy to set up and work with, the choice of voices is superior and the price is very economical.

I use it to «speechify» articles on my blogs to give readers an additional way to engage with the content.

I can recommend Speechkit without reservation.

SpeechKit — superb product and superb support.

As someone who does a lot of content marketing, I’m always looking for ways to get more mileage out of what I publish. When I heard about this, I was a little hesitant — since most text-to-speech audio is of such poor quality. Since I know podcasts are increasing in popularity, however, I finally decided to pull the trigger… and am so happy that I did. It’s VERY easy to set up, and customer support is off-the-charts. I ran into a snafu with something my web developer did, and a bunch of super old articles ended up in rotation. They were amazingly helpful in cleaning up the mess. And have been very responsive in answering questions that I’ve had along the way. This is a tremendous value, and I couldn’t be happier with my decision.

We’ve used this plugin on Irish Tech News since their beta days and have found it to be excellent. It creates automated versions of articles without any input needed and the audio files can be shared as a podcast too. There is a far larger selection of voices now that can be used and have become more natural. Keep up the great work!

We have been using Speechkit now for a few weeks and love it!! Works really well and is simple to implement and add to our pages. We have also managed to use the app within our directory of disabled listings so its versatile to use across our whole platform.

Followed installation instructions.

Published a test page. No widget shown.

Uninstalled.

Программы для воспроизведения текста голосом

Говорилка

Говорилка – полезный софт для любителей слушать, к сожалению не доступный в онлайн режиме. Поддерживает загрузку дополнительных речевых движков и языковой библиотеке прямо с официального сайта. Обладает полезными функциями:

  • Запись речи в аудио файл (*.WAV, *.MP3) с регулируемой скоростью воспроизведения.
  • Настройка скорости воспроизведения и тональности голоса в утилите.
  • Обработка текстов с интернет страниц и пакета офисных приложений.
  • Запоминание положения курса при выходе из программы.
  • Неограниченный объем читаемых символов.

Sacrament Talker

Уникальность Sacrament Talker заключается в том, что он работает на собственной системе озвучивания речи TTS Engine 3.0, где доступно шесть русских голосов. Как и другие программы обрабатывает текст из браузера, офисных приложений, а также сохраняет озвучку в MP3 формате.

2nd Speech Center

2nd Speech Center – очередной помощник, оберегающий зрение. Обладает максимально понятным пользовательским интерфейсом. Поддерживает запись произносимого текста в форматах mp3/wav. Обрабатывает форматы: .txt, .doc, .pdf, .eml, .rtf, .htm, .html.

Audiobook Recorder

Audiobook Recorder больше напоминает продвинутую аудиокнигу, чем традиционную говорилку. Утилита специализируется на конвертации текстовых документов в MP3. Отличительной особенностью программы служит наличие функции «Умная пауза», улучшающая качество чтения.

TNR JayJay

Утилита TNR JayJay – развлекательная говорилка, которая поможет узнать, как бы звучала фамилия пользователя на японском языке. Софт ориентирован на поклонников аниме, поскольку функцию голосов исполняют милые 2D девушки. При желании вы можете сохранить записанный материал на компьютере и поделиться полученным каламбуром с друзьями.

Балаболка

Балаболка – универсальная программа для чтения вслух, поддерживающая огромное количество форматов, начиная от страниц в браузере и заканчивая DjVu файлами. Имеет в распоряжении функционал текстового редактора, а также сохраняет озвученный текст на компьютере.

Говорун+

Говорун+ — компактная программа, которая может читать текст вслух на русском. Работает на предустановленном синтезаторе речи и использует встроенные голосовые движки. Читает RTF и TXT файлы. Дополнительно имеется плеер для воспроизведения записанных звуков, система оповещения, работа в трее и редактируемый интерфейс. Приятно порадует анимированные персонажи, выполняющие функции дикторов.

Foxit Reader

Foxit Reader – небольшая утилита для преобразования текста в речь, сосредоточенная на чтении PDF файлов. Отличается оперативной скоростью обработки данных и нетребовательностью к техническим ресурсам ПК. Отдельного внимания заслуживает дружелюбный пользовательский интерфейс, где управление инструментами редактирования осваиваются на интуитивном уровне.

Demagog

Проект Demagog – полезная утилита, которая больше походит на продвинутый текстовый редактор. Благодаря широким возможностям подходить не только для чтения и воспроизведения текстов, но и справляется с литературными произведениями. Порадует аудиалов следующими функциями:

  • Наличие инструментов форматирования, как в стандартных текстовых редакторах.
  • Уникальный алгоритм корректировки произношения.
  • Подсветка орфографических ошибок и омографов.
  • Распознавание многоязычных документов.
  • Поддержка словарей произношения DIC.

ICE Book Reader

ICE Book Reader – многофункциональная говорилка, которая не только озвучивает записанный русский и английский текст, но и конвертирует некоторые файлы. Специализируется на чтении книг. Отлично справляется с большинством известных форматов, а также имеет несколько полезных опций:

  • Пять режимов для пролистывания текста.
  • Оптимизация со всеми версиями ОС Windows.
  • Несколько тем оформления рабочего меню софта.
  • Стильный и удобный пользовательский интерфейс.
  • Корректное распознание не алфавитных символов.
  • Управление книжными коллекциями и автоматическая сортировка информации.

RussAcc

Проект RussAcc специализируется на воспроизведении русской речи. Представленная программа умеет правильно расставлять ударения при произношении, а также выделяет ударение на письме.

Дополнительно RussAcc используется, как текстовый редактор (форматирование текста) и конвертер FB2 в TXT. Имеется система закладок и запоминания читаемого фрагмента при выходе.

Строим графы средствами 1С (без GraphViz)

Множество статей на Инфостарте описывают, как работать с компонентой GraphViz, чтобы построить ориентированный граф. Но практически нет материалов, как работать с такими графами средствами 1С. Сегодня я расскажу, как красиво строить графы с минимальным пересечением.
Нам этот метод пригодился для отрисовки алгоритмов в БИТ.Финансе, т.к. типовой механизм не устраивал. Еще это может быть полезно для визуализации различных зависимостей: расчета себестоимости, графы аффилированности компаний и т.д.
Надеюсь, эта статья поможет сделать мир 1С красивее и гармоничней:)
Итак, поехали…

Командная строка Яндекса

С её помо­щью мы смо­жем полу­чать нуж­ные клю­чи досту­па, что­бы отправ­лять фай­лы с запи­ся­ми на сер­вер для обработки.

Весь про­цесс уста­нов­ки мы опи­шем для Windows. Если у вас Mac OS или Linux, то всё будет то же самое, но с поправ­кой на опе­ра­ци­он­ную систе­му. Поэто­му если что — .

Для уста­нов­ки и даль­ней­шей рабо­ты нам пона­до­бит­ся PowerShell — это про­грам­ма для рабо­ты с команд­ной стро­кой, но с рас­ши­рен­ны­ми воз­мож­но­стя­ми. Запус­ка­ем PowerShell и пишем там такую команду:

iex (New-Object System.Net.WebClient).DownloadString(‘https://storage.yandexcloud.net/yandexcloud-yc/install.ps1’)

Она ска­ча­ет и запу­стит уста­нов­щик команд­ной стро­ки Яндек­са. В сере­дине скрипт спро­сит нас, доба­вить ли путь в систем­ную пере­мен­ную PATH, — в ответ пишем Y и нажи­ма­ем Enter:

Команд­ная стро­ка Яндек­са уста­нов­ле­на в систе­ме, закры­ва­ем PowerShell и запус­ка­ем его зано­во. Теперь нам нуж­но полу­чить токен авто­ри­за­ции — это такая после­до­ва­тель­ность сим­во­лов, кото­рая пока­жет «Обла­ку», что мы — это мы, а не кто-то другой.

Пере­хо­дим по спе­ци­аль­ной ссыл­ке, кото­рая даст нам нуж­ный токен. Сер­вис спро­сит у нас, раз­ре­ша­ем ли мы доступ «Обла­ка» к нашим дан­ным на Яндек­се — нажи­ма­ем «Раз­ре­шить». В ито­ге видим стра­ни­цу с токеном:

Теперь нуж­но закон­чить настрой­ку команд­ной стро­ки Яндек­са, что­бы мож­но было с ней пол­но­цен­но рабо­тать. Для это­го в PowerShell пишем команду:

yc init

Когда скрипт попро­сит — вво­дим токен, кото­рый мы толь­ко что получили:

Сна­ча­ла отве­ча­ем «1», затем «Y» и «4».

Достоинства

Во вложении обработка Yandex speech в которой реализована функция проверки новых звуковых wav файлов в каталоге SpRecord , подгрузка их в 1С, далее получение доп. информации о длительности и номерах из SpRecord и далее нарезка файлов по 55 секунд и распознавание их в Yandex SpeechKit Cloud.

В обработке нужно:

— заполнить идентификатор каталога Yandex SpeechKit Cloud

— заполнить идентификатор OAuth

— путь к каталогу SOX.

— в каталог  SOX установить дополнительно opusenc и cURL 

— В функции ПолучитьМенеджера необходимо задать соответствие номера линии SpRecord и номера телефона менеджера.

— КаталогСФайлами путь к звуковым файлам разговоров программы SpRecord.

— СтрокаСоединения задать свои параметры подключения к SQl серверу

Usage

YSKSpeechKit

Singleton class for configuring and controlling the library. You don’t need to explicitly create or destroy instances of the class. To access an object, use the method, which creates an instance of the class when accessed the first time. This instance is destroyed when the application closes.

Before using any of the SpeechKit functionality, you must configure using the API key (for more information, see ). To do this, call the method in the application:

YSKSpeechKit.sharedInstance().apiKey = "developer_api_key"

YSKAudioSessionHandler

Use this class to configure the application’s audio session for recording and playing audio. The audio session is a singleton object that configures the audio context of the application so that it can interact with other applications that use audio. The application always uses a single instance of the audio session, so the audio session is configured and activated outside the realm of the library components. The class makes it easier to configure the audio session. If your application uses an audio session only when working with the library, we recommend using this class to configure the audio session. If your application uses the audio session outside of the library (for audio and video playback, recording audio, and so on), you can also use this class, or configure the audio session independently.

do {
    try YSKAudioSessionHandler.sharedInstance().activateAudioSession(with:settings)
}
catch {
    print("AVAudioSession deactivation did fail with error: \(error.localizedDescription)")
}

YSKOnlineRecognizer

let settings = YSKOnlineRecognizerSettings(language: YSKLanguage.english(), model: YSKOnlineModel.queries()) // 1
let recognizer = YSKOnlineRecognizer(settings: settings)
recognizer.delegate = self
recognizer.prepare()
recognizer.startRecording() 
func recognizer(_ recognizer: YSKRecognizing, didReceivePartialResults results: YSKRecognition, withEndOfUtterance endOfUtterance: Bool) {
  print("Partial result: \(results.description)")

  if endOfUtterance {
    print("Recognition result: \(results.bestResultText)")
  }
}

YSKOnlineVocalizer

let settings = YSKOnlineVocalizerSettings(language: YSKLanguage.english())
let vocalizer = YSKOnlineVocalizer(settings: settings)
vocalizer.delegate = self
vocalizer.prepare()
vocalizer.synthesize("What's up kid?", mode: .append)

SIP телефон(софтфон) для 1С:Предприятия 8 и IP АТС (виртуальная и офисная) Промо

«АТС.Ринголайн» и «Ringophone» — это современный взгляд, комплексное решение для организации телефонии в офисе, которое работает прямо из коробки. Решения направлены на организации, где главный упор сделан на коммуникацию и взаимоотношения с клиентами.
RingoPhone 1С — это бесплатный sip телефон, выполненный в виде внешней обработки для 1С. Данная панель телефонии разработана для любых конфигураций 1С:Предприятия 8. RingoPhone работает с АТС на базе Asterisk и провайдерами, которые поддерживают SIP протокол. IP телефония набирает огромную популярность и всё больше возможностей открывается при объединении телефонии и CRM системы. Возможность встроить телефон в свою CRM систему, позволяет осуществлять управление не только на уровне АТС, но и на уровне самого телефона.
АТС.RingoLine изначально создавалась с учётом интеграции с современными CRM системами. CRM системам доступно менять любые настройки АТС. Такие как: создание пользователей, добавление и удаление операторов колл-центра, возможность задавать переадресацию сотрудникам, получать информацию о звонках с АТС, а возможность доработки позволит заложить новые алгоритмы распределения звонков по сотрудникам в зависимости от данных в CRM системе.

1 стартмани

Аналитика по телефонным звонкам для бизнеса

Что может принести бизнесу распознавание телефонных звонков?

  • Во-первых, это увеличение закрытых сделок. Если разработать скрипт разговора совместно с продажниками, с HR-менеджерами, с руководством, и контролировать, как менеджер по этому скрипту разговаривают, это поможет увеличить количество закрытых сделок.

  • Во-вторых, можно искать вхождение слов. Допустим, менеджер при разговоре с клиентом произносит несколько раз слово «Заказ», «Сделка», «Доставка» – потом по этим словам можно сделать отбор, найти в справочнике все звонки, где эти слова встречались, и, допустим, перезвонить клиенту еще раз, либо передать в доставку. Это позволит не потерять эту сделку.

  • В-третьих, в конце месяца можно посмотреть количество минут, проговоренных каждым из менеджеров, и скоррелировать это с зарплатой – это еще один KPI для менеджеров.

  • В-четвертых, это проверка ошибок. Руководство может посмотреть, кто первый предложил предоставить скидку – это сделал менеджер либо это попросил клиент. Также можно делать разбор конфликтов. Я считаю, что для бизнеса это нужно и позволяет увеличить прибыль.

Балаболка — программа-озвучка женским голосом на разных языках

Небольшая программа для полноценного чтения книг женским голосом обрабатывает файлы размером до 2-х ГБ. Балаболка позволяет сохранять текст в формате MP3. Правильное прочтение отдельных слов и фраз можно настроить вручную.

Балаболка дает также подгрузить множество языков интерфейса. Чтобы их настроить, нажмите на вкладку «Вид». Переключить язык чтеца можно на панели «Параметры голоса».

Что делать, если Балаболка не говорит на русском по-женски:

Перейдите на страницу для скачивания языков на сайте Майкрософт.

Далее делайте так:

  1. Пролистайте вниз открывшееся окно.
  2. Кликните на кнопку Download.

    Куда нажимать для скачивания

  3. Выберите все файлы с условным обозначением «RU» в названии.

    Файл RU в общем списке

  4. Скачайте архивы на компьютер.

Распакуйте и установите сохраненные файлы. Перезагрузите компьютер, чтобы изменения вступили в силу. После этого откройте программу Балабалка и проверьте, появился ли нужный язык на панели с настройкой параметров.

Если женские голоса для озвучки текста все еще не видно, попробуйте альтернативный подход. Скачайте Балаболку, голосовой движок и Portable версию с сайта ProgramsWindows. Качество встроенных чтецов не всех устраивает, однако они будут исправно выполнять свои функции. Также вы можете попробовать загрузить программу через торренты на сайте rutracker.

Также вы попробуйте загрузить сборку этой программы через торренты на сайте rutracker. Если на него не удается зайти, можно включить Browsec или любой другой способ обхода блокировки.

Условия и ограничения

Рас­по­зна­ва­ние речи — плат­ная услу­га, но Яндекс даёт 60 дней и 3000 ₽ для тести­ро­ва­ния. За эти день­ги мож­но рас­по­знать 83 часа аудио — боль­ше трёх суток непре­рыв­но­го раз­го­во­ра. Это очень мно­го: за вре­мя под­го­тов­ки этой ста­тьи и тести­ро­ва­ния тех­но­ло­гии мы потра­ти­ли 4 руб­ля за 3 дня.

Если отправ­лять фай­лы с запи­сью боль­ше мину­ты, то одна секун­да аудио сто­ит одну копей­ку. Что­бы рас­по­знать запись дли­ной в час, нуж­но 36 руб­лей. Это при­мер­но в 20 раз дешев­ле, чем берут транс­кри­ба­то­ры — люди, кото­рые сами наби­ра­ют текст на слух, про­слу­ши­вая запись.

Ней­ро­сеть часто пони­ма­ет, когда текст нуж­но раз­бить на абза­цы, но дела­ет это не все­гда правильно. Ещё она не ста­вит запя­тые, тире и двое­то­чия. Мак­си­мум, что она дела­ет — ста­вит точ­ку в кон­це пред­ло­же­ния и начи­на­ет новое с боль­шой бук­вы. Но при этом почти все сло­ва рас­по­зна­ют­ся пра­виль­но, и отре­дак­ти­ро­вать такой текст намно­го про­ще, чем наби­рать его с нуля.

Послед­нее — из-за осо­бен­но­стей нашей речи и про­из­но­ше­ния SpeechKit может путать сло­ва, кото­рые зву­чат оди­на­ко­во (код — кот) или ста­вить непра­виль­ное окон­ча­ние («сла­ва обру­ши­лось на него неожи­дан­но»). Реше­ние про­стое: про­го­ня­ем такой текст через орфо­ней­ро­кор­рек­тор и всё в поряд­ке. Одна ней­рон­ка исправ­ля­ет дру­гую — реаль­ность XXI века 

Всё, при­сту­па­ем.

Ино­гда резуль­тат полу­ча­ет­ся вот таким, но на пони­ма­ние тек­ста это не силь­но влияет. 

Вопросы

  • Почему вы используете консольные команды, а не REST-запросы по API?

  • В первых версиях этой обработки я использовал запросы напрямую из 1С. Но поскольку при распознавании коротких аудиозаписей мне приходилось запускать базу 1С в несколько потоков, четыре базы 1С, запущенные на одном компьютере, существенно съедали память. Из-за этого и перешли на Curl.

  • Разве у вас файловая база? В клиент-серверной базе можно пользоваться фоновыми заданиями, сделать REST-запрос на сервере. Такая возможность есть очень давно. У меня тоже используется подобное решение, правда для других целей – стартует несколько фоновых потоков, каждый из которых что-то выполняет. В вашем случае это дало бы очень сильный выигрыш.

  • Как вы решаете случаи, когда одно слово отправлено в разных кусках – будет ли оно распознано?

  • У нас есть исходная расшифровка и есть расшифровка менеджера, который приводит исходную расшифровку в более читаемый текстовый вид, потому что все равно исходное распознавание получается не стопроцентное – аналоговая АТС вносит свои коррективы. Например, при проверке онлайн-распознавания на сайте Яндекса, слова, сказанные в микрофон с ноутбука, распознаются лучше, чем загруженные из файла телефонного разговора, записанного через обычный аналоговый аппарат АТС. Соответственно, менеджеру приходится исправлять за Яндексом ошибки. Так эта проблема и решается.

  • Сколько времени заняла реализация проекта и какое количество суммарно сотрудников менеджеров телефонных звонков у такая статическая информация о понять масштабы?

  • Я на слайде приводил статистику – с 2017 года было обработано 118 тысяч звонков. У нас работает где-то 45 менеджеров, в месяц они наговаривают 5 гигабайт этих телефонных разговоров. Такое количество звуковой информации можно спокойно распознать в четырех потоках. Яндекс предоставляет 20 потоков, соответственно, еще есть куда расти.

  • Когда вы конвертируете wav-файлы в OggOpus, вы не пробовали играться, на каком битрейте уже распознавание хуже?

  • Я пробовал менять частоту дискретизации. Соответственно, сейчас он по умолчанию там на 11000 0,25 герц я пробовал увеличить в два раза до 22000. Размер файла увеличился в два раза, стоимость распознавания увеличилась, но качество не очень увеличилась. Скажу по опыту, что легче поставить хорошие телефонные аппараты, убрать фоновое звучание музыки – сделать тихий кабинет. Тогда все распознается идеально. Допустим, когда распознается автоответчик, что-то наговаривает, то когда Яндекс пытается это преобразовать в текст все идеально получается. Когда менеджер комкает слова либо быстро говорит – соответственно, возможны проблемы. То есть легче поменять оборудование и просить менеджеров следить за четким произнесением ключевых слов. Например, еси нужно, чтобы зафиксировалась слово «Заказ», то они должны четко сказать «Заказ», тогда это слово точно отделится пробелами от всех остальных слов и можно будет делать по нему поиск.

  • Что делать с переадресацией звонков на мобильный, звонки с мобильных, в WhatsApp и так далее? Или у вас все только через корпоративную АТС и других вариантов нет?

  • Если в компании используется мобильная телефония, то лучше перейти на цифровые АТС, например, на MANGO. Нашими силами это не решить – если звонок ушел с АТС, SPRecord его не запишет, и он не будет расшифрован.

*************

Данная статья написана по итогам доклада (видео), прочитанного на INFOSTART MEETUP Saint Petersburg.Online. Больше статей можно прочитать здесь.

Подготовимся. Настройка профиля CLI

Активация аккаунта на облаке

Для использования сервиса YSK у вас должна быть почта на Yandex. Если у вас её нет, то самое время завести.

Будьте готовы к тому, что вам потребуется еще подтвердить свой номер мобильного телефона. Без этого, увы, сервисы будут недоступны.

Почта есть. Теперь самое время перейти на cloud.yandex.ru. Перейдя в консоль надо активировать пробный период пользования сервисом. Для этого надо привязать платежную карту. Как только вы это сделаете вам будет доступен грант на 60 дней.

В облака – через командную строку

Для понимания, как работает распознавание и синтез, мы потренируемся в командной строке. Например, в iTerm.

Для отправки запросов на API через командную строку установим утилиту cURL. Перед установкой проверьте, возможно, она у вас уже есть ($ curl —version):

Теперь настроим Интерфейс Яндекс.Облака для командной строки (CLI). Запустим скрипт:

Перезапустите командную оболочку. В переменную окружения PATH добавится путь к исполняемому файлу – install.sh.

Теперь нам нужно, чтобы в CLI заработало автодополнение команд в bash:

Если у вас еще нет менеджера пакетов Homebrew, установите его. Он вам не раз пригодится, обещаю.

Затем ставим пакет bash-completion:

и посмотрим, что изменилось в файле ~/.bash_profile:

Примечание: ~/.bash_profile используется для пользовательских настроек, в частности – для определения переменных окружения.

Видим, что в конце bash_profile добавились новые строчки:

Выше новых строк вставьте эту:

Набираем команду:

 и получаем приветственное сообщение:

 Вам предложат выбрать облако (скорее всего у вас оно единственное):

Далее по желанию выберете Compute zone. Пока пользователь один – этим можно пренебречь.

Посмотрим, как выглядят настройки профиля CLI:

Мы в шаге от старта. Осталось добыть второй ключ (в настройках профиля он не будет отображаться): 

Полетели!

Достоинства

Во вложении обработка Yandex speech в которой реализована функция проверки новых звуковых wav файлов в каталоге SpRecord , подгрузка их в 1С, далее получение доп. информации о длительности и номерах из SpRecord и далее нарезка файлов по 55 секунд и распознавание их в Yandex SpeechKit Cloud.

В обработке нужно:

— заполнить идентификатор каталога Yandex SpeechKit Cloud

— заполнить идентификатор OAuth

— путь к каталогу SOX.

— в каталог  SOX установить дополнительно opusenc и cURL 

— В функции ПолучитьМенеджера необходимо задать соответствие номера линии SpRecord и номера телефона менеджера.

— КаталогСФайлами путь к звуковым файлам разговоров программы SpRecord.

— СтрокаСоединения задать свои параметры подключения к SQl серверу

Универсальный обмен между идентичными конфигурациями через REST интерфейс OData. Часть І: Справочники

Сейчас все чаще интеграции различных конфигураций проектируются через HTTP-сервисы — они и работают быстрее, и «войти» в режим отладки гораздо проще, тем самым обойдя «черный ящик» универсального обмена через xml, например.
Более года назад я начал работать в компании, в которой разработчики работали с конфигурациями 1С в режиме совместимости еще 8.2.16 (менять режим совместимости в типичных базах мы не хотели) — а как Вы наверное знаете, если интересовались HTTP-сервисами в 1С, их использование в режиме совместимости 8.3.4 и ниже недопустимо — и здесь я уже не надеялся на разработку и использование HTTP-сервисов.
Но позже меня заинтересовал такой «сервис» как REST интерфейс OData, так как его можно использовать не меняя режим совместимости конфигурации — именно он и стал для меня идеальным вариантом решения «нетривиальных» задач.

Решение от Voximplant

Voximplant предоставляет API, позволяющий легко интегрировать функциональность TTS в свое приложение или веб-сайт. Компании используют TTS для обработки входящих и исходящих вызовов, а также для управления голосовыми уведомлениями, при этом не требуется никакого оборудования или сложного программирования.

Voximplant поддерживает TTS на базе таких сервисов, как Amazon Polly, Google WaveNet, Dialogflow, IBM Watson, Яндекс SpeechKit, Tinkoff VoiceKit и Microsoft Azure. WaveNet также используется онлайн-сервисами Google: Google Assistant, Google Search и Google Translate. WaveNet генерирует необработанные аудиосигналы с помощью нейронной сети, обученной на большом количестве речевых образцов. Вся необходимая информация для генерации речи хранится в параметрах модели, а тон голоса можно контролировать с помощью настроек модели. 

Особенности решения от Voximplant: 

  • Многоязычность: широкий охват различных языков, включая американский и британский английский, китайский, арабский и другие.
  • Движок WaveNet, который можно использовать для обучения бота в соответствии с потребностями бизнеса.
  • Естественные голоса: мужские и женские голоса высокого качества.
Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Adblock
detector