Исследователи MIT разработали компьютерное устройство, позволяющее транскрибировать слова, которые пользователь вербализирует внутренне, но фактически не говорит вслух.
Система состоит из переносимого устройства и соответствующей вычислительной системы. Электроды в устройстве фиксируют нервно-мышечные сигналы в челюсти и лице, вызванные внутренней вербализацией, произносимые «в голове» слова, но не поддающиеся восприятию человеческим глазом. Сигналы подаются в систему машинного обучения, которая была обучена корреляции конкретных сигналов с определенными словами.
Устройство также включает в себя пару наушников, которые передают вибрации через кости лица во внутреннее ухо. Поскольку они не препятствуют ушному каналу, наушники позволяют системе передавать информацию пользователю без прерывания разговора или иным образом мешать пользователю.
Таким образом, устройство является частью полной бесшумной вычислительной системы, которая позволяет пользователю незаметно позировать и получать ответы на сложные вычислительные проблемы. В одном из экспериментов исследователей, например, испытуемые использовали систему, чтобы молча сообщать о действиях противников в шахматной игре и так же тихо получать ответы, рекомендованные компьютером.
«Мотивацией для этого было создание устройства IA - устройства для увеличения интеллекта (англ. intelligence-augmentation device)», - говорит Арнав Капур, аспирант MIT Media Lab, который возглавлял разработку новой системы. «Наша идея заключалась в том, что у нас есть более сложная вычислительная платформа, которая каким-то образом объединяет человека и машину, и это похоже на внутреннее расширение нашего собственного познания».
«Мы в принципе не можем жить без наших мобильных телефонов, наших цифровых устройств», - говорит Патти Маес, профессор медийных искусств и наук, а также помощник Капура. «Но на данный момент использование этих устройств очень сложно. Если я хочу посмотреть что-то, что имеет отношение к разговору, который у меня есть, мне нужно найти свой телефон и ввести пароль и открыть приложение и ввести какое-то ключевое слово для поиска, и все это требует, чтобы я полностью переключил внимание со своей среды и людей, с которыми я связан с самим телефоном. Итак, мои ученики и я очень долго экспериментировали с новыми форм-факторами, которые позволяют людям пользоваться всеми замечательными знаниями и услугами, которые эти устройства дают нам, но делать это без отвлечения от настоящего ».
Исследователи представили свое устройство на конференции Association for Computing Machinery's ACM Intelligent User Interface conference.
Тонкие сигналы
Идея о том, что внутренние вербализации имеют физические отклики, существует с 19 века, и она была серьезно исследована в 1950-х годах. Одной из целей движения скорочтения 1960-х годов было устранение внутренней вербализации или «субвокализации», как известно (пояснение: «Субвокализация» — это мысленное проговаривание текста при чтении про себя, позволяющее читателю вообразить звучание слов как при чтении вслух).
Но субвокализация для компьютера толком не исследована. Первым шагом исследователей было определить, какие места на лице являются источниками наиболее надежных нервно-мышечных сигналов. Таким образом, они проводили эксперименты, в ходе которых одних и тех же испытуемых требовали повторить одну и ту же серию слов четыре раза, каждый раз, используя массив из 16 электродов в разных местах лица.
Исследователи написали код для анализа полученных данных и обнаружили, что сигналы из семи конкретных местоположений электродов последовательно способны отличать субвокализованные слова. Исследователи сообщают о разработке прототипа портативного устройства с субвокализованной речью, который обертывается вокруг задней части шеи, как телефонная гарнитура, и имеет изогнутые щупальцами изогнутые придатки, которые касаются лица в семи местах по обе стороны рта и вдоль челюстей.
Но в текущих экспериментах исследователи получают сопоставимые результаты, используя только четыре электрода вдоль одной челюсти, что должно привести к созданию менее заметного устройства.
Как только они выбрали расположение электродов, исследователи начали собирать данные по нескольким вычислительным задачам с ограниченными словарями - по 20 слов каждый. Один из них - арифметика, в которой пользователь будет решать задачи с добавлением или умножением; другой - это шахматное приложение, в котором пользователь будет сообщать об изменениях, используя стандартную систему нумерации шахмат.
Затем для каждого приложения они использовали нейронную сеть для поиска корреляций между определенными нервно-мышечными сигналами и конкретными словами.
Основная конфигурация системы исследователей включает в себя нейронную сеть, предназначенную для идентификации субвокализованных слов от нервно-мышечных сигналов, но она может быть настроена для конкретного пользователя через процесс, который перенастраивает только два последних слоя.
Практические вопросы
Используя прототип носимого устройства, исследователи провели исследование удобства использования, в котором 10 испытуемых провели около 15 минут настраивая приложение, а затем провел еще 90 минут, используя его для выполнения вычислений. В этом исследовании система имела среднюю точность транскрипции около 92 процентов.
Но, по словам Капура, производительность системы должна улучшаться благодаря большему количеству данных обучения, которые могут быть собраны во время обычного использования.
В текущей работе исследователи собирают множество данных о более сложных разговорах в надежде на создание приложений с гораздо более обширными словарями. «Мы находимся в середине сбора данных, и результаты выглядят обнадеживающе», - говорит Капур.
«Я думаю, что они немного недооценивают то, что я считаю реальным потенциалом для работы», - говорит Тад Старнер, профессор Колледжа вычислительной техники Georgia Tech. «Как, скажем, управлять самолетами на асфальте в аэропорту Хартсфилда здесь, в Атланте. У вас вокруг шум, вы носите эти большие наушники - было бы здорово общаться голосом, там где вы обычно не сможете? Вы можете представить себе все эти ситуации, когда у вас есть среда с высоким уровнем шума, такая как летная палуба авианосца или даже места с большим количеством механизмов, например, электростанция».
«Другое, где это чрезвычайно полезно, - это специальные операции, - добавляет Старнер. «Там много мест, где не шумная среда, а тихая среда. Было бы здорово, если бы было такое устройство для общения между этими людьми?
И еще одно полезное применение разрабатываемого устройства - люди с ограниченными возможностями, которые не могут нормально разговаривать." – добавляет он.
Источник: Arnav Kapur et al. AlterEgo, Proceedings of the 2018 Conference on Human Information Interaction&Retrieval - IUI '18 (2018). DOI: 10.1145/3172944.3172977