18+

Алина Саратова

©  SmartBabr

Наука и технологии, Интернет и ИТ Мир

3797

30.05.2017, 13:54

Там, где машинный интеллект бессилен. Как работают «расшифровщики аудиозаписей»

Машинный интеллект может многое, но не всё. Одна из неподдающихся автоматизации задач — перевод сложных аудиозаписей в текст. Эту работу сегодня поручают фрилансерам и на первый взгляд она кажется лёгкой. Обозреватель SmartBabr рассказывает, каково это — быть «расшифровщиком аудиозаписей», и какие технологии все-таки могут в этом деле пригодиться.


У меня есть любимая работа, которая меня полностью удовлетворяет. Но, как известно, денег много не бывает – и со мной согласятся все, кто ищет дополнительный заработок. Именно поэтому так популярны все эти инфобизнесы, и, наверное, именно это является причиной распространенности и процветания всяких «работ», где нужно отправить предварительно некую сумму «на материалы» или «на документы». Покопавшись на бирже фриланса и пообщавшись с подругами, я наткнулась на вакансию расшифровщика аудиозаписей.

Эту вакансию размещают те, кто занимается социологическими исследованиями. У них есть такая штука, как «фокус-группа», когда собирается несколько человек по определенным параметрам, и проводится беседа на определенную, опять же, тему. Беседа записывается на диктофон, и вот эти-то записи и требуют так называемой расшифровки.

Доверить столь тонкую работу машинам не получается, как бы они не были умны

Причина проста: в самых обычных компьютерах не используются технологии, которые могут распознавать голоса. Машина переводит аудио в текст сплошным потоком, и потом этот поток требуется расшифровывать заново: программа не различает мужские и женские голоса, не может назвать имена и возраст, и не соображает, где вопрос, а где восклицание.

И тут мне, что называется, подфартило. Одна очень хорошая женщина предложила попробовать свои силы в расшифровке бесед. При этом она предлагала в четыре раза больше, чем платят за это дело на биржах. Ну кто от такого откажется? Тем более, имея опыт перевода диктофонных интервью (не своих).

— А тут что делать-то? — думала я. — Сиди себе, наушники в уши, да строчи — дословно же надо, никакой обработки. Ну или почти никакой…

И я согласилась.

После первой расшифровки у меня дрожали руки. После второй начал дергаться глаз. После третьей, кое-как поднявшись от компьютера и разогнув скрюченные пальцы, я поняла, что за последние трое суток я спала три часа, я не помню, как выглядит мой ребенок, а еще не знаю, когда я ела, когда причесывалась и как меня зовут. Я позвонила заказчице и попросила освободить меня от такого «удовольствия».

Эту работу могут делать те, у кого нет семьи, нет другой работы, хорошая память и высочайшая скорость набора текста

Для тех, кто усмехается: «Вот я-то, в отличии от тебя, все смогу и уж такую возможность не упущу!», кратко о работе. Дается аудиофайл, который нужно перевести в текстовый документ дословно. На файле беседа, не менее 8 человек, и очень плотная — никто не задумывается, все говорят по делу. Требуемым шрифтом требуемого размера полуторачасовая беседа занимает не менее 30 страниц. И целый список требований к оформлению: после набора я расставляла скобки, выделяла курсивом и полужирным шрифтом и ставила комментарии к репликам в одном тексте еще 4 часа.

Отказавшись от дальнейшего самоистязания, я проспала 15 часов. А потом, уже приняв ванну и вкусив чашечку чаю (от кофе, думаю, меня еще долго будет тошнить), подумала:

А вдруг меня спасли бы средства голосового набора?

Я бы перевела ручкой на бумажку, с указанием персонажей и выделением вопросов и восклицаний, с выведением эмоций и так далее, а потом аккуратно и вдумчиво, как учитель диктант для только научившихся писать первоклашек, прочитала бы это все в микрофон, а компьютер сам за меня набрал это? Может, так было бы проще и легче? И я полезла искать, пробовать, анализировать и сравнивать программы для голосового набора. Конечно, мне они уже не так уж и нужны — но пригодятся тем, кто пишет дипломы, статьи, лекции и так далее.

Компания Google, которая занимает лидирующие позиции в области машинного обучения и искусственного интеллекта, предлагает сразу несколько приложений для своего браузера. Установив эти приложения и помощники, вы получите тот самый инструмент для набора текстов посредством чтения его в микрофон.

Первое из них – голосовой блокнот. Это бесплатное приложение. Оно есть как в интернет-магазине браузера, так и на конкретном сайте .

Голосовой блокнот может проводить транскрибацию, но потоком. А когда надиктовываешь ему текст, нужно называть словами знаки препинания. Буквально как в том анекдоте:

«Кто там знак вопроса это мы запятая Вася и Петя запятая твои друзья точка»

При очень медленном чтении с выделением голоса блокнот может и сам поставить знаки препинания, но перед тем как брать файл и использовать его нужно проверить: а правильно ли он вас понял.

Второе приложение – это Войснот II . Он работает точно так же, как блокнот, но имеет несколько другой интерфейс и кому-то покажется более удобным.

Сервис Август предлагает не только голосовой блокнот, но ряд других услуг, которые являются платными. А вот запись текста голосом в нем доступна только для браузера Google Chrome. Голосовой помощник сервиса бесплатен и распознает русский, украинский, английский, немецкий, французский и итальянский языки.

Следующий сервис TalkTyper – бесплатный, и удобен тем, что имеет голосовые подсказки и возможности просмотра вариантов распознавания. Также в сервисе есть удобный редактор, с помощью которого довольно просто скопировать полученный текст или сразу с сайта распечатать его на принтере. Также ваш материал с помощью TalkTyper можно сразу перевести, скажем, на английский или французский. Если честно, иностранными владею на уровне «здороваюсь со словарем», поэтому именно эту функцию проверить не смогла. А так – сойдет. Очень удобно, что слова, которые программа не смогла распознать точно, подсвечиваются, и при нажатии на них можно выбрать другие варианты.

Есть программы, которые требуют установки, самые известные – Voco и MSpeech. Первая – платная, ее стоимость от 1690 рублей. Вторая — бесплатная. Voco не только печатает на компьютере и устанавливает знаки препинания, но и умеет транскрибировать аудио (потоком). MSpeech может распознавать голос на 50 языках и имеет горячие клавиши. Можно самому выбирать источник звука, корректировать распознанный текст.

Для всех программ и приложений требуется браузер Google Chrome, практически абсолютная тишина в комнате и очень чувствительный микрофон. Также желательна хорошая дикция – чтобы не пришлось потом много править в готовом документе. Также практически весь софт недостаточно хорошо распознает отдельные слова и приходится четко их проговаривать, а это снижает скорость появления текста.

В принципе, попробовать можно.

Читайте также:

Работа в интернете на дому и без вложений: что скрывается за заманчивыми предложениями

Алина Саратова

©  SmartBabr

Наука и технологии, Интернет и ИТ Мир

3797

30.05.2017, 13:54

URL: https://m.babr24.news/?IDE=272319

Bytes: 7734 / 6789

Скачать PDF

Поделиться в соцсетях:

Также читайте эксклюзивную информацию в соцсетях:
- Телеграм
- ВКонтакте

Связаться с редакцией Бабра:
[email protected]

Другие статьи и новости в рубрике "Наука и технологии"

Красноярские учёные создали сорбент из ели для очистки воды от тяжёлых металлов

Исследователи из Красноярского научного центра Сибирского отделения РАН разработали природный сорбент на основе сибирской ели, который может ...

«Рыцарь» Байкала: итоги викторины

С именем этого академика РАН неразрывно связана научная судьба Байкала. Он являлся директором Лимнологического института c 1961 по 1987 год.

Автор: Есения Линней.

Источник: Babr24.com.

Наука и технологии, Экология, Политика

Байкал, Бурятия, Иркутск

9074

13.07.2025

Археологи обнаружили древние человеческие останки в Николаевке

Во время археологических работ в переулке Боготольский в районе Николаевки археологи обнаружили захоронение бронзового века.

Учёные ТГУ. Лаборатория с системой ИИ и эксперимент со стиркой и микропластиком

9 июля 2025 года на площадке ИХТЦ состоялось открытие новой лаборатории искусственного интеллекта в химии и молекулярной инженерии.

Автор: Андрей Тихонов.

Источник: Babr24.com.

Наука и технологии, Интернет и ИТ, Экология

Томск

7634

10.07.2025

«Иргиредмет» принял участие в международной конференции и выставке в Китае

Специалисты АО «Иргиредмет» выступили с докладом на международном форуме The 5th Sino-foreign Mining Industry Chain Development Forum и выставке в ...

НИИ биологии Байкала создали в Иркутском госуниверситете

Старейший научно-исследовательский институт на Байкале — НИИ биологии ИГУ — сменил название. Теперь он называется НИИ биологии озера Байкал.

Великан среди озёр: итоги викторины Бабра

Байкал – не просто глубокое озеро, это крупнейший резервуар пресной воды на планете.

Автор: Есения Линней.

Источник: Babr24.com.

Наука и технологии, Экология

Байкал, Бурятия, Иркутск

13031

28.06.2025

Томский кампус: пациент скорее мёртв, чем жив

Компанию, которая создавалась с целью возведения томского межвузовского кампуса, хотят признать банкротом – Федеральная налоговая служба подала в ...

Автор: Андрей Игнатьев.

Источник: Babr24.com.

Наука и технологии, Образование, Экономика и бизнес

Томск

11971

26.06.2025

Археологи пересмотрели возраст стоянки в Красноярске: она оказалась на 10000 лет старше

Археологическая стоянка «Солнечный» в Красноярске оказалась значительно древнее, чем предполагали ученые.

Учёные ТГУ. Следы юрского периода и экспедиция в Арктику

Палеонтологам Томского госуниверситета удалось обнаружить следы растений и животный юрского периода.

Автор: Андрей Тихонов.

Источник: Babr24.com.

Наука и технологии, Экология, Здоровье

Томск

14170

20.06.2025

В Новосибирске не стали возвращать академику Асееву звание почетного жителя города

В Новосибирске на последней сессии Совета депутатов народные избранники отказались рассматривать вопрос о возвращении статуса почетного жителя города ...

Солнечная альтернатива угольному дыму: удачный эксперимент или утопия?

На фоне ежегодного ухудшения экологической ситуации в Улан-Баторе, одной из самых острых проблем остается высокий уровень загрязнения воздуха.

Автор: Эрнест Баатырев.

Источник: Babr24.com.

Наука и технологии, Общество, Экология

Монголия

12716

18.06.2025