Искусственный интеллект способен учиться языку жестов, основываясь на 80-часовом видеоматериале
![Искусственный интеллект способен учиться языку жестов, основываясь на 80-часовом видеоматериале Искусственный интеллект способен учиться языку жестов, основываясь на 80-часовом видеоматериале](https://globalscience.ru/pictures/28390_10621.jpg)
Для людей, страдающих глухотой или нарушениями слуха, технологии распознавания голоса, такие как Alexa и Siri, могут стать преградой в эффективной коммуникации. Исследователи использовали искусственный интеллект для создания инструмента, который преобразует жестовый язык в текст, что может повысить доступность и включение в общество для глухих людей.
Перевод жестового языка требует точного понимания позы жестовщика, чтобы сгенерировать точную текстовую транскрипцию. Исследователи из Барселонского центра суперкомпьютеров (BSC) и Политехнического университета Каталонии (UPC) использовали искусственный интеллект для разработки инструмента, улучшающего перевод жестового языка.
Это важный шаг к тому, чтобы дать возможность глухим и лицам с нарушениями слуха взаимодействовать с технологией и получать доступ к цифровым сервисам, разработанным для использования со звучащими языками. Исследователи использовали модель машинного обучения в стиле трансформера, аналогичную той, которая лежит в основе других инструментов искусственного интеллекта, например, ChatGPT. Трансформеры полезны по двум основным причинам. Во-первых, эти модели хорошо обучены использовать контекст благодаря механизму самовнимания, присутствующему в их архитектуре.
Самовнимание - это способ, с помощью которого нейронная сеть контекстуализирует слова, обращая внимание на другие слова в тексте. Во-вторых, они позволяют значительно увеличить производительность при обучении на тренировочных примерах, что позволяет использовать больше данных для обучения в определенное время. В данном исследовании тренировочный набор данных взят из проекта How2Sign, который представляет собой крупномасштабный мультимодальный набор данных с множеством ракурсов, состоящий из 80 часов видеоматериала с инструкциями на американском жестовом языке и соответствующими английскими транскрипциями.
"Новый разработанный инструмент является расширением предыдущей публикации, также созданной BSC и UPC, под названием How2Sign. В рамках этой публикации были опубликованы данные, необходимые для обучения моделей, включающие более 80 часов видео, где переводчики жестового языка на американском жестовом языке переводят видеоуроки, такие как кулинарные рецепты или советы по самоделкам", - сказала Лайя Таррес, ведущий автор исследования.
"Используя эти уже доступные данные, команда разработала новое программное обеспечение с открытым исходным кодом, способное научиться отображать видео в текст". Для исследователей важным было использование видео с непрерывным жестовым языком, а не изолированных жестов, поскольку это более реалистично отражает то, как говорящие естественным образом используют цепочку слов (конкатенацию) для построения предложений, что может быть важным фактором в определении смысла предложения.
Одной из проблем, с которой столкнулись исследователи, была изменчивость и сложность жестовых языков, которые могут зависеть от таких факторов, как фон жестовщика, контекст и внешность. Для помощи в этом они предварительно обработали данные с использованием метода извлечения видео под названием Inflated 3D Networks (I3D), который применяет трехмерный фильтр к видео, позволяя извлекать пространственно-временную информацию из них. Исследователи обнаружили, что предварительная обработка текста также значительно улучшает перевод жестов в текст.
Для предварительной обработки исходного текста они привели его к нижнему регистру, что снизило сложность словаря. В целом, они обнаружили, что их модель способна создавать осмысленные переводы, хотя и не идеальные. "Хотя наша работа показала многообещающие результаты, всё же есть место для улучшения", - отмечают исследователи. Находясь все еще в экспериментальной фазе, исследователи будут продолжать работу над созданием инструмента, который позволит глухим и лицам с нарушениями слуха использовать те же технологии, что и люди без проблем со слухом.
С этим материалом еще читают:
Британские ученые расшифровали язык шимпанзе
![](https://globalscience.ru/pictures/small/24109_6310.jpg)
Перспективные технологии, которые изменят нашу жизнь уже в 2023 году
![](https://globalscience.ru/pictures/small/28353_10585.jpg)
Что могут рассказать наши лица?
![](https://globalscience.ru/pictures/small/28305_10539.jpg)
Еще из категории технологии:
- Новая и улучшенная камера, вдохновленная человеческим глазом
- Машинное обучение может помочь ответить на давние астрофизические вопросы
- Ученые связывают износ двигателей самолетов с попаданием пыли в крупных аэропортах
- Цемент, вдохновленный раковинами, стал в 19 раз гибче благодаря «спроектированным дефектам»
- Самый длинный в Северной Америке вантовый мост соединяет США и Канаду
- Твердотельная батарея от американского производителя достигла нового рубежа
- Билл Гейтс закладывает первый камень для нового поколения ядерных реакторов в США
- Новые открытия освещают поиски ценных "зеленых" металлов
Последние комментарии
Рассылка топовых новостей
Читательский топ
- Астрономы находят доказательства того, что голубые сверхгиганты могут образовываться в результате слияния двух звезд
- Признаки жизни обнаружины в единственном ледяном зерне, выброшенном с экстерральных лун, показывает экспериментальная установка
- За пределами клонирования: использование мощи виртуального квантового вещания
- Новые открытия освещают поиски ценных "зеленых" металлов
- Ровер NASA Perseverance исследует древнюю реку на Марсе
- Билл Гейтс закладывает первый камень для нового поколения ядерных реакторов в США
- Самый длинный в Северной Америке вантовый мост соединяет США и Канаду
Комментариев нет. Будьте первым!