- skansen.lviv.ua - http://skansen.lviv.ua/ -
Нейронную сеть научили рисовать лицо голос
Опубликованно 12 Августа 2019, в 00:00 в разделе Hi-Tech | Нет комментариев.
Американские разработчики представили в сеть, модель Speech2Face. Подготовку в несколько миллионов видео, эта модель не в состоянии воссоздать для спектрограммы речи человека оценивается изображение его лица, на основе трех основных параметров: поле, расе и возрасте. Описание алгоритма и результаты его работы доступны в препринте, опубликованном на arXiv.org.
Голос человека может быть различной точностью определить некоторые особенности: легко определить пол, немного сложнее (но возможно) — возраст и наличие акцента дает общее представление о национальности. В результате этого, можно примерно представить себе, как человек, но это понятие не является достаточно точным.
Ученые из Massachusetts institute of technology, с участием а как На (Tae-Hyun Oh) решили проверить, можно ли точно восстановить внешний вид человека, его голос с помощью машинного обучения. Для подготовки сайтах они использовали набор данных AVSpeech, состоящий из более чем одного миллиона коротких видео более ста тысяч различных людей: у каждого видео в базе данных разделяется на аудио и видео дорожки. Архитектура подготовили сайтах организована следующим образом. Сначала предварительно подготовлен алгоритм VGG-Face (ранее была использована для создания модели, которая не в состоянии определить сексуальную ориентацию человека — если мокрые) использует характеристики лица человека на один кадр видео, чтобы создать изображение лица человека в анфас, с нейтральным выражением лица. Другая часть алгоритма воссоздает звуковой дорожки видео (небольшой фрагмент, от 3 до 6 секунд) спектрограмма речи и, используя результаты параллельного сайтах, создавая образ человека, дает на выходе расплывчатое изображение лица человека, который говорит в видео.
Точность разработали алгоритм, ценится за три демографические: ученые сравнили пол, примерный возраст и род исходного изображения человека-видео и изображения, восстановленного в соответствии с голосом. Несмотря на то, что авторам удалось достичь успеха в восстановлении изображения, некоторые люди для видео, объективные метрики показывают несовершенство разработанной модели. В частности, модель хорошо угадать пол человека, но редко может определить, пока в возрасте десяти лет, и даже лучше «рисует» людей с кавказской и азиатской внешностью. Недавно, разработчики объясняют неравномерное распределение пород на обучение образец.
Исследователи отметили, что цель их работы не было точного восстановления внешности человека по его голосу, и они сосредоточились именно на назначение и точность некоторых важных параметров: пола, возраста и этнической принадлежности. Это для того, чтобы это показать именно голос человека, до тех пор, что это не возможно: когда некоторые параметры достаточно, чтобы создать, например, анимация аватар человека, чтобы его голос. Также ученые отмечают, что их работа-это поиск, пожалуйста: интернет-поколения лиц на основе записей поможет вам лучше изучить корреляцию с внешностью.
Ранее, нейронная сеть научилась превращать свои мысли в слова.
Вы хотите знать, важные и актуальные новости раньше всех? Подпишитесь на страницу Bigmir)net в Facebook: facebook.com/bigmir.net.
Полный текст →URL сайта: http://skansen.lviv.ua/
URL новости: http://skansen.lviv.ua/news/748569/
Нажмите здесь, чтобы распечатать страницу.
Copyright © 2025 skansen.lviv.ua. При использовании материалов сайта, пожалуйста ставтье прямую ссылку на наш сайт.