giovanni1313 (giovanni1313) wrote,
giovanni1313
giovanni1313

Category:

10 тестов, которые должен пройти каждый уважающий себя ИИ (6)


6. Тест на полноту понимания


Пара похожих заданий из «детского сада для ИИ» - прокомментировать событие и интерпретировать картину — также заслуживают отдельного рассмотрения. Все они оценивают способности машины понять суть комплексных явлений, как правило, подразумевающих социальный контекст. В свою очередь, концепция «понимания» не без оснований считается одной из центральных в когнитивистике — достаточно вспомнить знаменитый аргумент о «китайской комнате» Джона Сёрла.

Аргумент этот, впрочем, мало чем полезен в практическом плане. Особенно если мы вспомним высказывание Терри Винограда про высокомерие и алхимиков, как нельзя более подходящее к дискурсу Сёрла. Если же отвлечься от сёрловского мистицизма и перейти к более рациональным определениям, то понимание окажется способностью извлекать значение из истории как единого целого, интегрируя смысл отдельных, более мелких ее частей. Полнота понимания отражает богатство и важность корректных связей, установленных субъектом между имеющейся у него базой знаний и отдельными элементами истории.

Ну а без корректного набора связей — функциональных, причинно-следственных и т. п. - ни один ИИ толком работать не сможет. Причем задача понимания предполагает, что искомые связи не даются в явном виде. Их приходится извлекать из сложного и многообразного комплекса представлений.


Человек в параллельном режиме строит большое количество таких связей по мере разворачивания истории. Кажущаяся эффективность человеческого понимания базируется на этом параллелизме: находимые связи структурируют комплекс представлений сразу на всех уровнях (вглубь) и на всем его протяжении (в длину). Процесс, пожалуй, больше всего требователен к умениям в домене commonsense knowledge, а также к социокультурным знаниям, абстракции, дедукции и синтезу.

Немного отойдем от теории. Разработчики алгоритмов уже довольно давно оценили потенциал способностей к пониманию. Они нужны для обработки неформализованной информации, например, текстов на естественном языке. Одной из первых работ в этой области можно считать «Deep Read: A Reading Comprehension System», опубликованной в 1999. Используя примитивные статистические методы, авторы создали систему, призванную отвечать на тесты по пониманию текстов, изначально ориентированные на 3-6-классников.

С тех пор прогресс был довольно большим. В 2011 система Watson от IBM произвела колоссальный PR-эффект, выиграв в интеллектуальной телеигре ”Jeopardy!” у двух людей-чемпионов. А особенно мощный рывок был связан с наступлением эры глубоких нейросетей. В недавние годы сверточные нейросети открыли возможность машинного понимания не только текста, но и изображений. Относительная лёгкость, с которой алгоритмам покорялись всё новые и новые достижения, даже создала впечатление, что для машинного понимания не нужен «разум» (хотя бы та примитивная автономия, которую описывает «когнитивное десятиборье»).

Пример системы от IBM, LSTM-нейросеть + обучение с подкреплением
Однако мы можем возразить: «разум» не нужен для тех задач, с которыми алгоритмы справляются сегодня. Да, сегодня машины могут давать ответы на многие вопросы, ответ на которые содержится в известном им тексте. Есть ли задания, более сложные для понимания, и какой вызов здесь действительно будет достоин ИИ?

Ответ на первый вопрос — да, и достойный вызов здесь опять оказывается связан с темой искусства. Но сперва вернемся к заданию из «детского сада»: пониманию просмотренной сцены. Само по себе оно едва ли составит трудность для 5-6 летнего ребенка. А вот для сегодняшних алгоритмов, особенно если требуется определить контекст, это уже совершенно непосильная задача.

Дело в том, что наиболее современные методы анализа видео способны извлечь только примитивную информацию об объектах и опознать очень ограниченный набор действий. Даже такая обработка очень затратна с точки зрения вычислительных ресурсов, и повышение ее сложности потребует еще большего роста вычислений.


А всё потому, что видеопоток представляет собой менее чёткий, более богатый и шумный вид представлений по сравнению с текстом. Видео гораздо ближе к нашему реальному миру со всей присущей ему сложностью. Для того, чтобы «перевести» видео в текст, нужно пройти долгий путь, начиная от отдельных пикселей, через контуры, детали и так далее, дополняя всё это временным измерением и последовательно поднимаясь на всё более высокий уровень абстракции. Всё это никак не может быть «бесплатным» с точки зрения вычислений.

Для нынешних примитивных задач видеоанализа нужны только короткие фрагменты. Так что мы поднимаем планку дальше. Гэри Маркус в 2014 предложил использовать в качестве теста ТВ-программы или ролики с «Ютьюба». Сможет ли машина ответить на общие вопросы о содержании этих видео, продолжительностью в десятки минут и содержащих множество отдельных сцен?

Однако и это не предел. Вспомним, что машине требуется обнаружить максимально полную содержательную структуру видео. Но видеодокументы могут иметь разную глубину такой вложенной структуры. Возьмем два ролика одинаковой продолжительности. Один из них будет снят, скажем, отдыхающими в Египте туристами из Нижнего Тагила, решившими запечатлеть нехитрые радости морского купания. Второй — современной передачей про какие-либо исторические события, с фрагментами реконструкции и серьезным анализом.


Очевидно, что содержание во втором случае глубже и требует более сильных способностей к пониманию. Потому что создатели исторической передачи изначально нацеливались на передачу зрителю сложного набора взаимосвязанных фактов и оценок, конструируя видеоряд соответствующим образом. Таким образом, глубокую структуру надо искать только там, где авторы изначально ее закладывают.

И вот здесь оказывается как нельзя кстати целый пласт культуры, для которого глубина замысла является одной из ключевых целей, и в котором ценится прежде всего богатство и стройность содержательной структуры. Речь, конечно, об искусстве. В более поздней публикации Г. Маркус и П. Паритош предлагают литературные романы, фото и художественные фильмы в качестве тестового материала. Из этого набора именно кино является самым сложным вызовом для сегодняшних машин.

Обычный 2-часовой фильм содержит огромное количество контента для алгоритмов, даже если брать чисто вычислительную сторону дела. С содержательной стороны тоже всё на уровне: каждая сцена содержит десятки деталей, некоторые — еще и десятки персонажей, все действия осмыслены, и подобно шестеренкам в часовом механизме, последовательно двигают сюжет к закономерной развязке.

Каждая из этих «шестеренок» может быть важна для понимания всего произведения, для каждой нужно понять ее роль и место. Помните пример с литературой в тесте Лавлейс? Если там машине требуется облечь в читабельную форму свою, уникальную иерархию абстракций, то в тесте на понимание задача обратная: найти уже готовую иерархию в предоставленном документе. Это более простая задача, несомненно, но она требует похожих умений.

Для машин может оказаться сложным вариант с анимационными фильмами, где представление информации серьезно отличается от реалистичного. Проблемой здесь может стать наличие достаточного количества обучающего материала для анализа изображения. Затруднения могут быть и с фантастикой: антураж, который машина видит впервые, потребует сильных способностей к анализу и генерализации.

[Антураж как одна из "шестеренок"...]
Антураж как одна из «шестеренок»: исполинское здание штаб-квартиры «Тайрелл» призвано показать мощь корпорации, его футуристическая пирамидальная форма — подчеркнуть технологическую продвинутость разработок компании. Хотя возможны и более глубокие аллюзии. «Бегущий по лезвию», 1982.

Сложность может представлять не только изучаемый материал, но и то, какие вопросы по нему задаются. Поскольку нас интересует полнота понимания, мы вправе задавать вопросы самого общего характера, на которые может и не быть однозначного ответа. Маркус предлагает такие примеры: «Какова мотивация протагониста?», «Что случится, если антагонист преуспеет в своих замыслах?». И это еще не самые трудные вопросы. Но каждый из них требует развернутого ответа, который зачастую в прямом виде в документе не содержится. Подобное находится далеко за пределами способностей современных алгоритмов.

Если термин «понимание» кажется слишком человеческим, то мы можем заменить его «способностью к интерпретации». И в этом случае очевидно, что развернутость ответов машины является необходимым условием. Мы можем вспомнить, как у каждого из нас тестировалось понимание литературы из школьной программы: написанием сочинений на заданную тему. Этот вариант предполагает еще большую развернутость.

Во взрослом мире кино- и литературные критики пишут еще более обстоятельные тексты, а то и целые монографии, посвященные тому или иному произведению. Это уровень понимания, явно превосходящий способности среднего человека, но в качестве смелого вызова для ИИ он вполне подходит. Чем более глубокие уровни вскрывает ИИ, тем более сложную содержательную структуру документа он создает, и тем больше он может рассказать о ней.


Добавим, что такое развитие еще больше приближает тест на понимание к тесту Лавлейс. Что символизирует единство мира искусства, в котором существует автор и зрители с читателями. И тут пора напомнить, что и для автора, и для зрителя искусство является одним из замысловатых способов познания окружающего мира. А понимание, в свою очередь, означает в том числе и постижение чего-то нового.

Причем в искусстве это «что-то новое» даётся очень непрямыми путями. Обычно самое ценное лежит глубоко, очень глубоко. И процесс «докапывания» до сути — одна из самых увлекательных сторон для человека-зрителя или читателя в действительно глубоком произведении.

Можно ли когда-нибудь будет говорить об «увлекательности процесса» для машины? Я не знаю ответа на этот вопрос. Но мы вправе ожидать, что машина, как и человек, найдёт на этой глубине новые крупицы неявного, но ценного знания. Знания, которое будет верным не только для конкретного вымышленного мира, но и для мира, окружающего всех нас. Это и будет самым важным аспектом понимания.


Пока же в мире, окружающем нас, глубокие нейросети ни на какую глубину понимания не способны. Хотя распознавание видео совершенствуется, уже несколько лет являясь коммерчески зрелой технологией. Помимо корпоративного интереса, этой областью активно интересуется государство. Алгоритмы идентификации людей по внешности уже сейчас очень сильны. Другим любопытным направлением является распознавание различных человеческих движений, например рукопожатий или игры на музыкальных инструментах. Но всё это довольно узкие задачи.

Есть и более широкие примеры. Возьмем датасет YouTube-8M, одну из крупнейших открытых баз данных для машинного обучения. Сейчас в нем содержатся данные о более 6 млн. видео общей продолжительностью 350 тыс. часов. Именно данные, а не сами видео — чтобы сделать размер датасета сколь-нибудь приемлемым, издателям (Google) пришлось отказаться от аудио и видео вовсе, заменив их статистическими представлениями (созданными с помощью сверточных нейросетей). В итоге каждая секунда видео занимает всего 1024 байта, аудиодорожка — еще 128 байт. То есть примерно в 70 раз «легче» минимального битрейта (144р). Даже с такими ухищрениями датасет весит более полутора терабайт.

Хорошо, но чего мы можем добиться с этими терабайтами? Мы можем определить несколько ярлыков, обозначающих тему конкретного видео. Например, «прическа», «баскетбол» или «еда». Всего таких ярлыков 3862. Другими словами, ярлык описывается 12 битами.

Эти 12 бит — предел глубины понимания современных алгоритмов. Чтобы было еще наглядней, 12 бит позволяют отличить 4-минутное видео с баскетболом от 4-минутного видео про приготовление печенек. Вот она, блеск и нищета совеременных достижений в ИИ! Если мы хотим чего-то большего, то сталкиваемся, как и для теста Лавлейс, с экспоненциальным ростом ресурсов и сложности...

Забавно, что во многих фантастических произведениях, затрагивающих тему ИИ, описывается конфликт между людьми и машинами. В реальности же людям предстоит серьезно бороться за будущее действительно умных машин. Конечно, борьба за прогресс — далеко не самая зрелищная и остросюжетная тема. Но нам самим давно пора научиться понимать разницу между придуманными мирами и реальным будущим.

Если, конечно, мы хотим достичь чего-то большего.




>> 7. Тест на универсальные навыки в видеоиграх >>
Tags: ИИ, технологии
Subscribe

  • Оптимизация по-техасски

    В предыдущий нефтяной кризис, 2014-2016, аналитики любили повторять, что «сланцевая» нефть США выдержала удар, потому что резко повысила…

  • 50 оттенков пика нефти

    Не так давно, лет десять назад тема «пика нефти» была... хм, на пике моды. Не все эксперты были согласны с выводами Кинга Хабберта, но…

  • Так прав ли был Хабберт?

    Валентин Гибалов написал пост, в котором подверг (обоснованной) критике теорию пика добычи минеральных ресурсов. Досталось и пионеру этой теории,…

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 4 comments