18+

Алина Саратова

©  SmartBabr

Наука и технологии, Интернет и ИТ Мир

3741

30.05.2017, 13:54

Там, где машинный интеллект бессилен. Как работают «расшифровщики аудиозаписей»

Машинный интеллект может многое, но не всё. Одна из неподдающихся автоматизации задач — перевод сложных аудиозаписей в текст. Эту работу сегодня поручают фрилансерам и на первый взгляд она кажется лёгкой. Обозреватель SmartBabr рассказывает, каково это — быть «расшифровщиком аудиозаписей», и какие технологии все-таки могут в этом деле пригодиться.


У меня есть любимая работа, которая меня полностью удовлетворяет. Но, как известно, денег много не бывает – и со мной согласятся все, кто ищет дополнительный заработок. Именно поэтому так популярны все эти инфобизнесы, и, наверное, именно это является причиной распространенности и процветания всяких «работ», где нужно отправить предварительно некую сумму «на материалы» или «на документы». Покопавшись на бирже фриланса и пообщавшись с подругами, я наткнулась на вакансию расшифровщика аудиозаписей.

Эту вакансию размещают те, кто занимается социологическими исследованиями. У них есть такая штука, как «фокус-группа», когда собирается несколько человек по определенным параметрам, и проводится беседа на определенную, опять же, тему. Беседа записывается на диктофон, и вот эти-то записи и требуют так называемой расшифровки.

Доверить столь тонкую работу машинам не получается, как бы они не были умны

Причина проста: в самых обычных компьютерах не используются технологии, которые могут распознавать голоса. Машина переводит аудио в текст сплошным потоком, и потом этот поток требуется расшифровывать заново: программа не различает мужские и женские голоса, не может назвать имена и возраст, и не соображает, где вопрос, а где восклицание.

И тут мне, что называется, подфартило. Одна очень хорошая женщина предложила попробовать свои силы в расшифровке бесед. При этом она предлагала в четыре раза больше, чем платят за это дело на биржах. Ну кто от такого откажется? Тем более, имея опыт перевода диктофонных интервью (не своих).

— А тут что делать-то? — думала я. — Сиди себе, наушники в уши, да строчи — дословно же надо, никакой обработки. Ну или почти никакой…

И я согласилась.

После первой расшифровки у меня дрожали руки. После второй начал дергаться глаз. После третьей, кое-как поднявшись от компьютера и разогнув скрюченные пальцы, я поняла, что за последние трое суток я спала три часа, я не помню, как выглядит мой ребенок, а еще не знаю, когда я ела, когда причесывалась и как меня зовут. Я позвонила заказчице и попросила освободить меня от такого «удовольствия».

Эту работу могут делать те, у кого нет семьи, нет другой работы, хорошая память и высочайшая скорость набора текста

Для тех, кто усмехается: «Вот я-то, в отличии от тебя, все смогу и уж такую возможность не упущу!», кратко о работе. Дается аудиофайл, который нужно перевести в текстовый документ дословно. На файле беседа, не менее 8 человек, и очень плотная — никто не задумывается, все говорят по делу. Требуемым шрифтом требуемого размера полуторачасовая беседа занимает не менее 30 страниц. И целый список требований к оформлению: после набора я расставляла скобки, выделяла курсивом и полужирным шрифтом и ставила комментарии к репликам в одном тексте еще 4 часа.

Отказавшись от дальнейшего самоистязания, я проспала 15 часов. А потом, уже приняв ванну и вкусив чашечку чаю (от кофе, думаю, меня еще долго будет тошнить), подумала:

А вдруг меня спасли бы средства голосового набора?

Я бы перевела ручкой на бумажку, с указанием персонажей и выделением вопросов и восклицаний, с выведением эмоций и так далее, а потом аккуратно и вдумчиво, как учитель диктант для только научившихся писать первоклашек, прочитала бы это все в микрофон, а компьютер сам за меня набрал это? Может, так было бы проще и легче? И я полезла искать, пробовать, анализировать и сравнивать программы для голосового набора. Конечно, мне они уже не так уж и нужны — но пригодятся тем, кто пишет дипломы, статьи, лекции и так далее.

Компания Google, которая занимает лидирующие позиции в области машинного обучения и искусственного интеллекта, предлагает сразу несколько приложений для своего браузера. Установив эти приложения и помощники, вы получите тот самый инструмент для набора текстов посредством чтения его в микрофон.

Первое из них – голосовой блокнот. Это бесплатное приложение. Оно есть как в интернет-магазине браузера, так и на конкретном сайте .

Голосовой блокнот может проводить транскрибацию, но потоком. А когда надиктовываешь ему текст, нужно называть словами знаки препинания. Буквально как в том анекдоте:

«Кто там знак вопроса это мы запятая Вася и Петя запятая твои друзья точка»

При очень медленном чтении с выделением голоса блокнот может и сам поставить знаки препинания, но перед тем как брать файл и использовать его нужно проверить: а правильно ли он вас понял.

Второе приложение – это Войснот II . Он работает точно так же, как блокнот, но имеет несколько другой интерфейс и кому-то покажется более удобным.

Сервис Август предлагает не только голосовой блокнот, но ряд других услуг, которые являются платными. А вот запись текста голосом в нем доступна только для браузера Google Chrome. Голосовой помощник сервиса бесплатен и распознает русский, украинский, английский, немецкий, французский и итальянский языки.

Следующий сервис TalkTyper – бесплатный, и удобен тем, что имеет голосовые подсказки и возможности просмотра вариантов распознавания. Также в сервисе есть удобный редактор, с помощью которого довольно просто скопировать полученный текст или сразу с сайта распечатать его на принтере. Также ваш материал с помощью TalkTyper можно сразу перевести, скажем, на английский или французский. Если честно, иностранными владею на уровне «здороваюсь со словарем», поэтому именно эту функцию проверить не смогла. А так – сойдет. Очень удобно, что слова, которые программа не смогла распознать точно, подсвечиваются, и при нажатии на них можно выбрать другие варианты.

Есть программы, которые требуют установки, самые известные – Voco и MSpeech. Первая – платная, ее стоимость от 1690 рублей. Вторая — бесплатная. Voco не только печатает на компьютере и устанавливает знаки препинания, но и умеет транскрибировать аудио (потоком). MSpeech может распознавать голос на 50 языках и имеет горячие клавиши. Можно самому выбирать источник звука, корректировать распознанный текст.

Для всех программ и приложений требуется браузер Google Chrome, практически абсолютная тишина в комнате и очень чувствительный микрофон. Также желательна хорошая дикция – чтобы не пришлось потом много править в готовом документе. Также практически весь софт недостаточно хорошо распознает отдельные слова и приходится четко их проговаривать, а это снижает скорость появления текста.

В принципе, попробовать можно.

Читайте также:

Работа в интернете на дому и без вложений: что скрывается за заманчивыми предложениями

Алина Саратова

©  SmartBabr

Наука и технологии, Интернет и ИТ Мир

3741

30.05.2017, 13:54

URL: https://m.babr24.news/?IDE=272319

Bytes: 7734 / 6789

Скачать PDF

Поделиться в соцсетях:

Также читайте эксклюзивную информацию в соцсетях:
- Телеграм
- ВКонтакте

Связаться с редакцией Бабра:
[email protected]

Другие статьи и новости в рубрике "Наука и технологии"

Новосибирский институт теплофизики получил грант на 960 миллионов

Новосибирский Институт теплофизики СО РАН получил грант на 960 миллионов рублей из федерального бюджета по решению Министерства образования РФ.

Школьница из Бурятии взяла золото на всероссийском лесном конкурсе

Юная исследовательница из Баргузинского района Василиса Коневина доказала, что серьезная наука под силу даже школьникам.

Загадочные миграции в Байкале: итоги викторины Бабра

В Байкале ежедневно происходит перемещение водных организмов: миллионы мелких обитателей – от рачков до одноклеточных – поднимаются ближе к ...

Автор: Есения Линней.

Источник: Babr24.com.

Наука и технологии, Экология

Байкал, Бурятия, Иркутск

6213

31.05.2025

На месте будущего «Суриков-центра» в центре Красноярска нашли старинные монеты и кресты

На месте, где в Красноярске планируют построить «Суриков-центр», продолжаются археологические раскопки.

В Новосибирске отменили условный срок бывшему президенту СО РАН

В Новосибирске областной суд отменил условный срок бывшему президенту СО РАН Александру Асееву, который ранее был признан виновным в мошенничестве.

Новосибирскую дорогу к СКИФу отремонтируют по национальному проекту

В Новосибирской области автодорогу до «Сибирского кольцевого источника фотонов» отремонтируют по национальному проекту «Инфраструктура для жизни».

В Монголии планируют внедрить интеллектуальную систему земледелия

Монгольская компания «Буянт Тув» и российское ООО «Клевер фармер» договорились о сотрудничестве в пилотном испытании системы «умного» земледелия.

Учёные ТГУ. Торжественный запуск, или Российский электролит для суперконденсатора

В Томске с 20 мая проходит масштабный Всероссийский форум U-NOVUS-2025, в котором принимают участие предприниматели, инженеры и молодые учёные.

Автор: Андрей Тихонов.

Источник: Babr24.com.

Наука и технологии, События, Образование

Томск

1587

26.05.2025

«Денег нет, уменьшаем». Томские власти сэкономят на площади кампуса

Давно не было слышно о мегапроекте томского межвузовского студгородка, задуманного экс-губернатором Сергеем Жвачкиным без малого шесть лет назад.

Автор: Андрей Игнатьев.

Источник: Babr24.com.

Наука и технологии, Образование, Экономика и бизнес

Томск

10213

15.05.2025

Учёные ТГУ рассказали о многофункциональной программе Geant4 и суперколлайдере NICA

Томский государственный университет организует школу для изучения пакета программ Geant4.

Автор: Андрей Тихонов.

Источник: Babr24.com.

Наука и технологии, Образование, Интернет и ИТ

Томск

7520

21.04.2025

Инсайд. Новосибирский академгородок хочет отсоединиться?

Инициативная группа, выступающая за предоставление Советскому району Новосибирска, включающему территорию Академгородка, особого административного ...

Автор: Ярослава Грин.

Источник: Babr24.com.

Наука и технологии, Политика

Новосибирск

23088

19.04.2025

Передовые технологии и деловые контакты: в Улан-Баторе проходит выставка Mongolia Mining 2025

В столице Монголии начала работу крупнейшая специализированная выставка страны — Mongolia Mining 2025.

Автор: Эрнест Баатырев.

Источник: Babr24.com.

Наука и технологии, Общество, Экономика и бизнес

Монголия

18033

19.04.2025