тестируем пять сервисов по переводу аудиофайлов в текст

Раньше для расшифровки аудио и видео приходилось слушать записи и набирать текст вручную. Сегодня с этим неплохо справляются сервисы на основе искусственного интеллекта и автоматические расшифровщики. В интернете таких транскрибаторов десятки, однако все они неравнозначны по функционалу и по качеству конечного результата.

Рассмотрим и протестируем пять популярных сервисов, которые предлагают разные инструменты распознавания текстов — как с помощью ИИ, так и посредством голосового ввода с микрофона.

Riverside.fm

Riverside.fm — англоязычный по интерфейсу ИИ-сервис, который позволяет полноценно работать с аудио и видео: расшифровывать записи, создавать субтитры, записывать голосовые, делать подкасты и записывать видео из браузера.

Возможности Riverside.fm:

Поддержка разных языков — английского, русского и более 100 языков мира;
Расшифровка и транскрибация в реальном времени;
Редактирование готовых текстов;
Поддержка разных форматов — голосовой ввод и файлы MP3, MP4, MOV, WAV;
Экспорт текстов в .txt.

Как работать с Riverside.fm

Для транскрибирования переходим на страницу https://riverside.fm/transcription. Чтобы начать расшифровку, не требуется даже регистрироваться — кликаем по кнопке «Transcribe now».

На появившемся в браузере дашборде либо перемещаем нужный файл из папки, либо загружаем через аплоуд-меню:

Сервис принимает только аудиофайлы в MP3, MP4 и видео формата MOV, WAV. После загрузки файла выбираем язык речи в аудио и отмечаем галочку в примитивной капче:

Если вы неправильно выберете язык, система Riverside.fm не сможет транскрибировать аудио, и придется начинать заново. Сам процесс загрузки и расшифровки довольно быстрый, но качество транскрибирования на русском не особо впечатляет, особенно, если сама запись неудовлетворительная:

При расшифровке сервис не разбивает диалог по репликам участников, поэтому его лучше использовать для монологов.

Стоимость Riverside.fm

В бесплатной версии можно расшифровывать до 2 часов записей ежемесячно, с поддержкой качества видео до 720p и звука — 44,1 кГц. Ограничений по редактированию в браузере нет.

На платных тарифах Standard и Pro количество часов эфирного времени и возможности редактирования расширяются. А кастомное решение Business превращает Riverside.fm в браузерную студию по профессиональной обработке звука, видео, записи подкастов и так далее:

Riverside.fm можно использовать для расшифровки файлов формата MP3, MP4, однако качество текста на выходе весьма неоднозначно — его приходится дорабатывать вручную. С расшифровкой англоязычных текстов сервис, судя по отзывам, справляется гораздо лучше, но опять же — расстановку знаков препинания и смысловое акцентирование приходится выполнять самостоятельно.

Teamlogs

Teamlogs — русскоязычный ИИ-сервис, который работает в любом браузере и позволяет не только транскрибировать тексты, но и обрабатывать их в онлайн-редакторе.

Возможности сервиса:

Транскрибирование аудио- и видеозаписей;
Мультиязычность: расшифровка на русском и английском языке;
Поддержка большого количества форматов. Для аудио — M4A, MP3, OGG, WAV, AAC, WMA, FLAC, для видео — MP4, MKV, AVI, FLV, MOV, WMV;
Автоматическая расстановка знаков препинания;
Встроенный онлайн-редактор;
Разделение в готовом тексте на реплики спикеров;
Автогенерация краткого содержания записи;
Экспорт расшифровки в форматах *.docx, *.srt и *.xlsx.

Как работать с Teamlogs

Для запуска расшифровки перемещаем нужный файл на рабочий стол или загружаем его из папки. На дашборде сразу выставляем количество спикеров и выбираем язык:

В бесплатном тестовом варианте Teamlogs транскрибирует до 15 минут. Скорость расшифровки хорошая: час записи преобразуется в печатный текст за 6 минут. После преобразования нажимаем на кнопку «Продолжить», на следующем шаге система просит авторизоваться — это можно сделать с помощью аккаунта Google или «Яндекс»:

Подтверждаем выполненный бесплатный заказ, после чего получаем готовый файл в визуальном редакторе:

Результат работы Teamlogs более чем удовлетворительный — при хорошем качестве слышимости сервис справляется с транскрибированием на 95%. Мелкие недочеты связаны со сложными для алгоритмического восприятия словами или редкими географическими названиями, именами. Также ИИ иногда ошибается с отдельной атрибуцией спикеров: некоторые слова приписывает не тому, кто говорит — это случается в оживленной, эмоциональной беседе с большим количеством участников.

В визуальном редакторе есть несколько интересных дополнительных инструментов. При клике на кнопку с волшебной палочкой «Создать с AI» открывается окно с опциями генерации конспекта, выделения ключевых слов и поручений. Под поручениями понимаются смысловые указания, которые AI обнаруживает и определяет во всем тексте — с этим справляется неплохо:

В боковом меню текстового редактора есть еще два инструмента — удаление абзаца и добавление реплики:

При клике на иконку карандаша возле каждого абзаца всплывает меню, с помощью которого можно поменять спикера той или иной реплики.

Таким образом визуальный редактор Teamlogs становится удобным полноценным инструментом быстрого редактирования в готовой расшифровке.

При клике на иконку «Скачать стенограмму» появляется меню экспорта текста. Здесь выставляем формат скачивания и активируем все необходимые опции конечного вида текста:

Самые высокие ставки по RU, BY, KZ от прямого рекламодателя FONBET PARTNERS! К заливам!

Стоимость Teamlogs

После того как закончится 15 бесплатных минут тестового периода, можно «пополнить» минуты за деньги. Вариантов пополнения в специальном разделе немало: чем больше оплачиваешь, тем выше единоразовая скидка.

По теме... Тренинг «Трансформация»: разбираем бизнес-модель скандальных проектов

Оплатить с российской карты можно как частнику, ИП или юридическому лицу со своего счета:

В целом, Teamlogs — удобный, многофункциональный сервис с адекватным транскрибированием и возможностью быстрого редактирования текста в браузере. Основное преимущество программы в разнообразии инструментов доработки текста в визуальном редакторе.

Transcribe

Transcribe — сервис, который расшифровывает речь с микрофона, транскрибирует загруженные файлы, а также преобразует в текст разговорные ролики с YouTube.

Несмотря на англоязычный интерфейс сам сервис при переводе поддерживает русский язык.

Возможности Transcribe:

Большое количество языков для перевода — более 80-ти;
Удобный встроенный редактор с полезными инструментами: замедлением прослушиваемых файлов, расстановкой меток и так далее;
Автоматическое сохранение результатов при работе оффлайн;
Возможность загрузки файлов с ПК, из Google Диска, Dropbox, OneDrive или добавление по ссылке;
Поддержка различных форматов — 3GP, CAF, DSS, FLAC, WEBM, WMA, WMV.

Как работать с Transcribe

Для работы в Transcribe регистрируемся через меню «Sigh up» — заполняем стандартную информацию: имя пользователя, почту, выбираем индивидуальный тип лицензии.

После авторизации система сообщает о запуске триальной версии в течение недели — теперь можно приступать к транскрибированию.

После клика по кнопке «Start new transcription» система перебрасывает на дашборд, где можно выбрать два варианта: «Automatic Transcription» и «Self Transcription». В первом случае с транскрибированием помогает ИИ-алгоритм, при выборе второго варианта предлагается расшифровать текст самостоятельно в удобном редакторе:

При автоматическом транскрибировании в настройках выставляем русский язык исходника и ставим галочки в нужных опциях настроек. Среди них — выставление таймкодов, указание количества участников беседы, подгрузка субтитров, добавление тэгов и разбивка записи на фрагменты. Также есть инструмент для формирования собственного словаря для упрощения работы алгоритма.

К сожалению, в триальной версии расшифровать всю запись не получится — Transcribe устанавливает ограничение на транскрибирование не более одной минуты. Обойти ограничение помогает настройка «Transcribe a portion of the file», с помощью которой можно разбить разговор на части — по одной минуте каждой по выставленным таймкодам:

В триале дается 30 минут на расшифровки минутных фрагментов загруженной записи. В полноценной версии ограничение на загружаемые файлы в 420 минут или на 6 Гб по размеру:

По качеству расшифровки сервис соответствует заявленному разработчиками качеству в 90% чистоты. То есть неплохо транскрибирует ясную, четкую речь, но начинает «плыть» при сомнительных, двояко трактуемых словах или «проглатываемых» людьми звуках.

Если в настройках не выставлено количество участников, то Transcribe выдает общий поток речевого сознания, который приходится корректировать вручную:

На дашборде с результатом расшифровки есть дополнительные инструменты в правой части экрана:

«Edit transcript» — отдельный редактор, где текст можно поправить или просто скопировать;
«Export transcript» — экспорт стенограммы, файл скачивается формате txt;
«Change Timecode Frequency» — меню для изменения таймкодов;
«Change Subtitle Formatting» — меню для изменения субтитров.

В режиме визуального редактора появляется также команда «Dictate». с помощью нее можно надиктовывать текст — качество распознавания голоса с микрофона хорошее.

Стоимость Transcribe

После окончания триала сервис требует подключения к платному тарифу, цена которого — $20 в год, эти деньги снимают все ограничения по использованию. Подключение к кастомному плану позволяет работать с Transcribe коллективно, а также предоставляет 100 часов на расшифровки:

Transcribe — сервис неплохой, удобный, с простым и понятным интерфейсом визуального редактора. Единственный значимый минус в том, что оплатить полный функционал с российской карты не получится, потребуется расходник.

Speechpad

Speechpad позиционирует себя в качестве условно-бесплатного онлайн-блокнота для расшифровки голосового набора, однако в инструментах есть и опция расшифровки аудиозаписи в текст.

Возможности Speechpad

Многоязычный голосовой ввод — сервис распознает языки большинства стран бывшего СССР, а также расшифровывает английский, французский, немецкий, испанский и итальянский;
Интеграции с системами Windows, Mac и Linux для голосового ввода в приложениях ОС и в браузерах;
Установка специального Chrome-приложения для запуска блокнота с предустановленными параметрами;
Поддержка видео Youtube и HTML5;
Защита от шумов.

Как работать в Speechpad

Страница сервиса по дизайну напоминает сайты нулевых годов. Но это не главное — важнее работоспособность и адекватность расшифровки, хотя и с этим у сервиса все неоднозначно.

В нижней части экрана располагается визуальный редактор, в нем и ведется работа:

Прилка для восстановления данных с доходом в AUD $3,637 и сайт про онлайн-займы в Казахстане с доходом в 209 000₽: подборка интересных лотов с бирж №15

Для транскрибации кликаем по кнопке «+Транскрибация», появляется специальная панель:

На ней расположены все необходимые инструменты: помимо полей загрузки есть защита от шумов, выставление меток времени, шаг перемотки записи и скорость воспроизведения.

Качество расшифровки в Speechpad зависит от уровня распознавания через микрофон проговариваемого в динамиках текста — оно не может быть идеальным на 100%.

Стоимость Speechpad

Сервис дает 15 минут на бесплатную расшифровку вне зависимости от голосового ввода или распознавания из загруженного файла через микрофон. Чтобы продолжать работу в сервисе нужно оплатить подключение расширенных возможностей:

По теме... Как арбитражникам залететь в выдачу AI Mode, и почему SEO им не поможет

По пятибалльной системе качество транскрибирования можно оценить на три балла.

Автоматически текст сервис не распознает, в этом его существенный недостаток. Speechpad лучше справляется с распознаванием наговариваемого голосом текста — так качество значительно лучше.

Преимущество Speechpad в низких расценках на использование — это один из самых дешевых сервисов, работающих с расшифровкой на разных языках.

RealSpeaker

RealSpeaker — еще один русскоязычный сервис для перевода аудио в текст, который работает только с файлами, без голосового ввода через микрофон.

Возможности RealSpeaker

Мультиязычность — сервис распознает 39 языков;
Распознавание как аудио, так и видео;
Максимальная длительность файлов 180 минут, в бесплатной версии — не более 1,5 минуты;
Встроенный текстовый редактор;
Добавление субтитров в формате SRT или VTT.

Как работать с RealSpeaker

Сервис очень прост в обращении, работа в браузере ведется в три шага. Первым делом выбираем язык транскрибации и нажимаем кнопку «Продолжить». На втором шаге заливаем файл на дашборд, после чего система перекидывает в раздел «Мои медиа», где транскрибируются загруженные записи. Тут же RealSpeaker показывает расчетное время расшифровки: сервис работает быстро — на две минуты файла обычно уходит не более 30 секунд.

В меню расшифровки отображаются файлы всех пользователей, кто решил попробовать RealSpeaker, причем показаны как расшифрованные записи, так и те, что были залиты без последующей транскрибации.

Качество расшифровки, к сожалению, оставляет желать лучшего. Даже при хорошей слышимости речи RealSpeaker выдает очень приблизительный текст, который требует серьезной ручной доработки в редакторе:

Стоимость RealSpeaker

Для расшифровки файлов длиннее 1,5 минуты придется оплатить работу сервиса. При попытке транскрибации объемных записей система сама перекидывает в окно оплаты с автоматически рассчитанной стоимостью — минута расшифровки стоит 15 рублей:

Преимущество RealSpeaker в его простоте и скорости расшифровки, однако результаты транскрибирования довольно неоднозначны. Дорабатывать текст приходится самостоятельно — это касается не только расстановки знаков препинания и акцентирования речи в диалоге, но и замены слов на русские в тех местах, где сервис их не распознал.

К минусам относится и то, что записи, загруженные для расшифровки всеми пользователями, в течение 24 видны и доступны для прослушивания всем, кто решил воспользоваться RealSpeaker.

Писец

Сервис «Писец» — русскоязычный переводчик аудио- и видеофайлов в текст с разбивкой на спикеров и расстановкой тайм-кодов.

Возможности сервиса «Писец»:

Расшифровка с двух языков — русского и английского;
Поддержка различных форматов: WMA, MP4, MKV, FLV, OGG, AAC, WAV, AVI, MOV, WMV, M4A, MP3, FLAC и других;
Разделение готового текста на абзацы и знаки препинания;
Распознавание в записи до 5 спикеров;
Параллельная расшифровка нескольких файлов;
Техподдержка через Telegram.

Как работать с сервисом «Писец»

Транскрибатор прост в управлении: на главной странице загружаем через соответствующее меню файл, указываем почту, куда придет результат. а также устанавливаем язык записи и количество спикеров. После чего ожидаем загрузки файла:

Уведомление об успешной загрузке приходит на указанную почту. Через пару минут на почту в формате .txt приходит и файл с расшифровкой:

Качество расшифровки даже при хорошем звуке можно оценить на 90%. «Писец» неплохо справляется с общим потоком речи, хотя есть мелкие недочеты. При этом разбивка на спикеров работает посредственно — дорабатывать текст приходится вручную. Знаки препинания тоже далеко не всегда расставлены верно.

Стоимость сервиса «Писец»

Трнаскрибатор условно-бесплатный: 30 минут записи можно расшифровывать без оплаты. После этого по умолчанию включается бесплатный тариф с рядом ограничений:

Поочередная расшифровка при загрузке нескольких записей.
Уменьшенная скорость — транскрибация может занимать до 72 часов работы, так как сервис работает в порядке живой очереди.
Ограничение в 30 минут транскрибируемой записи.

Для получения расширенных возможностей «Писец» придется оплатить. Для физических лиц есть несколько тарифов:

Для юридических лиц у транскрибатора есть особые условия: корпоративный аккаунт, развертывание сервиса на собственных серверах, API-интеграции, выделенная поддержка. При этом действует поминутная тарификация, стоимость которой рассчитывается на отдельной странице.

«Писец» можно использовать для расшифровки получасовых записей, используя разные почты для получения результата. Готовый текст при этом все равно придется дорабатывать: расставлять знаки препинания и уточнять реплики разных спикеров.

IRENT: что нового? Обновление клоаки, оптимизации, новый функционал пушей, пополнение шаблонов прелендингов и многое другое

Выводы

Несмотря на то, что в последние годы появилось множество разных сервисов для автоматической обработки аудио, на 100% работоспособной, безукоризненно переводящей речь в текст нету.

Однако среди популярных программ есть несколько сервисов, которые справляются с поставленной целью довольно неплохо. Среди протестированных в рамках обзора это — Teamlogs и Transcribe, универсальные расшифровщики, которые можно использовать даже в бесплатном триале. В платной версии лучше использовать Teamlogs: при относительной дешевизне он с задачами расшифровки аудио справляется хорошо.

Источник

0 0 голоса

Рейтинг статьи