Специалисты проекта DeepMind компании Google и исследователи из Оксфордского университета совместными усилиями обучили систему искусственного интеллекта на базе нейронных сетей искусству чтении по губам. Обучение системы производилось путем «скармливания» ей 5 тысяч часов записей различных программ телеканала BBC, включая Newsnight, BBC Breakfast и Question Time. И в результате этого система искусственного интеллекта стала способной распознавать слова по движениям губ человека с такой точностью, которая является недостижимой для людей-специалистов в этом деле.
После процедуры обучения система искусственного интеллекта оказалась способной расшифровывать даже самые сложные фразы, определять слова, произносимые людьми, которые склонны «глотать» окончания слов, и людьми, обладающими не очень типичной мимикой их лица. В качестве тестового задания из набора различных телепередач были выбраны 200 случайных фрагментов. Человек-профессионал смог безошибочно распознать всего 12.4 процента слов, в то время, как искусственный интеллект показал результат в 46.8 процента, безоговорочно выиграв не только у человека, но и у других автоматических систем чтения по губам.
«Все это является огромным шагом на пути к созданию полностью автоматических систем чтения по губам» — рассказывает Зиэнг Жоу (Ziheng Zhou), ученый из университета Оулу, Финляндия, — «И это стало возможным только благодаря огромному набору исходных данных, на которых эта система была обучена». О величине набора исходных данных говорит тот факт, что в вышеупомянутых 5 тысячах часов записей содержалось около 118 тысяч предложений, произнесенных разными людьми, лица которых снимались с различных ракурсов.
Успех совместного мероприятии исследователей из Оксфордского университета и компании Google основывается на исследованиях оксфордских ученых, благодаря которым в свое время была создана система чтения по губам GRID. В качестве исходных данных эта система использовала данные об артикуляции людей при произношении 51 ключевого уникального слова. Система компании Google, обученная на наборе данных, содержащем около 17 500 уникальных слов, имеет гораздо более богатый набор исходных данных, что ощутимо сказывается на качестве ее работы.
Кроме этого, система компании Google была обучена на образцах реальной человеческой речи, а не на 33 тысячах синтетических предложений, составленных специально для обучения система GRID. Поэтому система Google менее восприимчива к особенностям каждого конкретного человека и к эмоциям, которые периодически очень сильно проявляются на лице говорящего человека.
В настоящее время специалисты Google и исследователи из Оксфордского университета готовят использованный ими для обучения искусственного интеллекта набор данных для того, чтобы создать на его основе общедоступный учебный ресурс. Этим ресурсом смогут пользоваться все разработчики систем автоматического чтения по губам, в том числе группа Яниса Ассаеля (Yannis Assael), которая занимается разработкой системы LipNet. И, вполне вероятно, что все эти усилия, в конце концов, могут привести к тому, что бытовые и потребительские электронные устройства смогут понимать то, что мы говорим им, читая это по нашим губам.
Источник: