18+

Алина Саратова

©  SmartBabr

Наука и технологии, Интернет и ИТ Мир

3633

30.05.2017, 13:54

Там, где машинный интеллект бессилен. Как работают «расшифровщики аудиозаписей»

Машинный интеллект может многое, но не всё. Одна из неподдающихся автоматизации задач — перевод сложных аудиозаписей в текст. Эту работу сегодня поручают фрилансерам и на первый взгляд она кажется лёгкой. Обозреватель SmartBabr рассказывает, каково это — быть «расшифровщиком аудиозаписей», и какие технологии все-таки могут в этом деле пригодиться.


У меня есть любимая работа, которая меня полностью удовлетворяет. Но, как известно, денег много не бывает – и со мной согласятся все, кто ищет дополнительный заработок. Именно поэтому так популярны все эти инфобизнесы, и, наверное, именно это является причиной распространенности и процветания всяких «работ», где нужно отправить предварительно некую сумму «на материалы» или «на документы». Покопавшись на бирже фриланса и пообщавшись с подругами, я наткнулась на вакансию расшифровщика аудиозаписей.

Эту вакансию размещают те, кто занимается социологическими исследованиями. У них есть такая штука, как «фокус-группа», когда собирается несколько человек по определенным параметрам, и проводится беседа на определенную, опять же, тему. Беседа записывается на диктофон, и вот эти-то записи и требуют так называемой расшифровки.

Доверить столь тонкую работу машинам не получается, как бы они не были умны

Причина проста: в самых обычных компьютерах не используются технологии, которые могут распознавать голоса. Машина переводит аудио в текст сплошным потоком, и потом этот поток требуется расшифровывать заново: программа не различает мужские и женские голоса, не может назвать имена и возраст, и не соображает, где вопрос, а где восклицание.

И тут мне, что называется, подфартило. Одна очень хорошая женщина предложила попробовать свои силы в расшифровке бесед. При этом она предлагала в четыре раза больше, чем платят за это дело на биржах. Ну кто от такого откажется? Тем более, имея опыт перевода диктофонных интервью (не своих).

— А тут что делать-то? — думала я. — Сиди себе, наушники в уши, да строчи — дословно же надо, никакой обработки. Ну или почти никакой…

И я согласилась.

После первой расшифровки у меня дрожали руки. После второй начал дергаться глаз. После третьей, кое-как поднявшись от компьютера и разогнув скрюченные пальцы, я поняла, что за последние трое суток я спала три часа, я не помню, как выглядит мой ребенок, а еще не знаю, когда я ела, когда причесывалась и как меня зовут. Я позвонила заказчице и попросила освободить меня от такого «удовольствия».

Эту работу могут делать те, у кого нет семьи, нет другой работы, хорошая память и высочайшая скорость набора текста

Для тех, кто усмехается: «Вот я-то, в отличии от тебя, все смогу и уж такую возможность не упущу!», кратко о работе. Дается аудиофайл, который нужно перевести в текстовый документ дословно. На файле беседа, не менее 8 человек, и очень плотная — никто не задумывается, все говорят по делу. Требуемым шрифтом требуемого размера полуторачасовая беседа занимает не менее 30 страниц. И целый список требований к оформлению: после набора я расставляла скобки, выделяла курсивом и полужирным шрифтом и ставила комментарии к репликам в одном тексте еще 4 часа.

Отказавшись от дальнейшего самоистязания, я проспала 15 часов. А потом, уже приняв ванну и вкусив чашечку чаю (от кофе, думаю, меня еще долго будет тошнить), подумала:

А вдруг меня спасли бы средства голосового набора?

Я бы перевела ручкой на бумажку, с указанием персонажей и выделением вопросов и восклицаний, с выведением эмоций и так далее, а потом аккуратно и вдумчиво, как учитель диктант для только научившихся писать первоклашек, прочитала бы это все в микрофон, а компьютер сам за меня набрал это? Может, так было бы проще и легче? И я полезла искать, пробовать, анализировать и сравнивать программы для голосового набора. Конечно, мне они уже не так уж и нужны — но пригодятся тем, кто пишет дипломы, статьи, лекции и так далее.

Компания Google, которая занимает лидирующие позиции в области машинного обучения и искусственного интеллекта, предлагает сразу несколько приложений для своего браузера. Установив эти приложения и помощники, вы получите тот самый инструмент для набора текстов посредством чтения его в микрофон.

Первое из них – голосовой блокнот. Это бесплатное приложение. Оно есть как в интернет-магазине браузера, так и на конкретном сайте .

Голосовой блокнот может проводить транскрибацию, но потоком. А когда надиктовываешь ему текст, нужно называть словами знаки препинания. Буквально как в том анекдоте:

«Кто там знак вопроса это мы запятая Вася и Петя запятая твои друзья точка»

При очень медленном чтении с выделением голоса блокнот может и сам поставить знаки препинания, но перед тем как брать файл и использовать его нужно проверить: а правильно ли он вас понял.

Второе приложение – это Войснот II . Он работает точно так же, как блокнот, но имеет несколько другой интерфейс и кому-то покажется более удобным.

Сервис Август предлагает не только голосовой блокнот, но ряд других услуг, которые являются платными. А вот запись текста голосом в нем доступна только для браузера Google Chrome. Голосовой помощник сервиса бесплатен и распознает русский, украинский, английский, немецкий, французский и итальянский языки.

Следующий сервис TalkTyper – бесплатный, и удобен тем, что имеет голосовые подсказки и возможности просмотра вариантов распознавания. Также в сервисе есть удобный редактор, с помощью которого довольно просто скопировать полученный текст или сразу с сайта распечатать его на принтере. Также ваш материал с помощью TalkTyper можно сразу перевести, скажем, на английский или французский. Если честно, иностранными владею на уровне «здороваюсь со словарем», поэтому именно эту функцию проверить не смогла. А так – сойдет. Очень удобно, что слова, которые программа не смогла распознать точно, подсвечиваются, и при нажатии на них можно выбрать другие варианты.

Есть программы, которые требуют установки, самые известные – Voco и MSpeech. Первая – платная, ее стоимость от 1690 рублей. Вторая — бесплатная. Voco не только печатает на компьютере и устанавливает знаки препинания, но и умеет транскрибировать аудио (потоком). MSpeech может распознавать голос на 50 языках и имеет горячие клавиши. Можно самому выбирать источник звука, корректировать распознанный текст.

Для всех программ и приложений требуется браузер Google Chrome, практически абсолютная тишина в комнате и очень чувствительный микрофон. Также желательна хорошая дикция – чтобы не пришлось потом много править в готовом документе. Также практически весь софт недостаточно хорошо распознает отдельные слова и приходится четко их проговаривать, а это снижает скорость появления текста.

В принципе, попробовать можно.

Читайте также:

Работа в интернете на дому и без вложений: что скрывается за заманчивыми предложениями

Алина Саратова

©  SmartBabr

Наука и технологии, Интернет и ИТ Мир

3633

30.05.2017, 13:54

URL: https://m.babr24.news/?IDE=272319

Bytes: 7734 / 6789

Поделиться в соцсетях:

Также читайте эксклюзивную информацию в соцсетях:
- Телеграм
- ВКонтакте

Связаться с редакцией Бабра:
[email protected]

Другие статьи и новости в рубрике "Наука и технологии"

От лёгкого дуновения до смертельных бурь: итоги викторины Бабра

Ветры на Байкале – природное явление, поражающее своей мощью и разнообразием.

Автор: Есения Линней.

Источник: Babr24.com.

Наука и технологии, Экология

Байкал, Бурятия, Иркутск

3473

11.02.2025

30 тысяч лет истории: археологи нашли древние очаги с ритуальным значением на Афонтовой горе

Археологи сделали важное открытие на территории памятника «Афонтова гора» в Красноярске.

Археологи нашли оружие скифов на месте строительства красноярского метротрама

Археологи обнаружили артефакты скифской эпохи VIII-VII веков до нашей эры во время раскопок на месте строительства метротрама в центре Красноярска.

В преддверии COP17 в Монголии обсудили продвижение «зелёных» технологий

В Монголии продолжают поднимать важные вопросы, касающиеся борьбы с изменением климата и создания новых «зелёных» рабочих мест.

Автор: Есения Линней.

Источник: Babr24.com.

Наука и технологии, Политика, Экология

Монголия

4801

05.02.2025

В детскую больницу №1 города Томска поступил сканер для ботулинотерапии

В детскую больницу №1 города Томска (ОГАУЗ «ДБ №1») поступил новый ультразвуковой сканер.

Учёные ТГУ: о проблеме таяния ледников и о новых полезных свойствах шиповника

Исследователи ТГУ сильно обеспокоены таянием Алтайских ледников.

Автор: Андрей Тихонов.

Источник: Babr24.com.

Наука и технологии, Здоровье, Экология

Томск

9617

31.01.2025

В Красноярском крае создают жилой модуль для будущей колонии на Марсе. Его протестируют в стратосфере

Красноярский завод готовит к испытаниям вагон-дом, который планируют поднять в стратосферу на высоту 21 километр.

В Красноярском крае упростят правила использования беспилотников

Власти Красноярского края планируют расширить использование беспилотных летательных аппаратов и упростить правила их применения.

Первый чемпионат среди дроноводов: Монголия делает ставку на БПЛА

Монголия продолжает развивать технологии беспилотных летательных аппаратов. На этом фоне в стране впервые прошел чемпионат среди дроноводов.

Автор: Эрнест Баатырев.

Источник: Babr24.com.

Наука и технологии, Общество, Экономика и бизнес

Монголия

5838

29.01.2025

На трассе Енисейск – Высокогорский нашли артефакты от каменного века до Средневековья

Во время подготовки к реконструкции трассы Енисейск – Высокогорский археологи обнаружили более 12 тысяч артефактов, относящихся к разным историческим ...

МС-21: сказка про белого бычка продолжается

Российский среднемагистральный пассажирский самолет МС-21, который должен был стать флагманом отечественного авиастроения ещё несколько лет назад, ...

Автор: Виктор Горбунов.

Источник: Babr24.com.

Наука и технологии, Расследования, Экономика и бизнес

Россия, Иркутск

15690

27.01.2025

Археологи нашли старинные артефакты при строительстве метротрама в Красноярске

Археологи обнаружили старинные артефакты на месте строительства станции метротрама «Карла Маркса» в центре Красноярска.