giovanni1313 (giovanni1313) wrote,
giovanni1313
giovanni1313

10 тестов, которые должен пройти каждый уважающий себя ИИ (2)

<< 1. Тест Тюринга <<

2. Тест Лавлейс


Далеко не все настроены оптимистично по поводу мыслительных способностей машин. И ситуация эта ничуть не нова. За несколько веков до того, как термин «искусственный интеллект» стал мейнстримным, Рене Декарт в своем трактате «О методе...» писал:

«Можно, конечно, представить себе, что машина сделана так, что произносит слова, и некоторые из них – даже в связи с телесным воздействием, вызывающим то или иное изменение в ее органах, как, например, если тронуть ее в каком-нибудь месте, и она спросит, что от нее хотят, тронуть в другом – закричит, что ей больно, и т. п. Но никак нельзя себе представить, что она расположит слова различным образом, чтобы ответить на сказанное в ее присутствии, на что, однако, способны даже самые тупые люди».

Что ж, скепсис Декарта по сути предвосхищает формулировку теста Тьюринга. Ну а скепсис Августы Ады Кинг, графини Лавлейс, одной из пионеров информатики (computer science) и соратницы Чарльза Бэббиджа, стал основой для другого теста на разумность. В заметках об Аналитической машине, по сути обладающей тьюринговской полнотой, леди Лавлейс предупреждает о ее ограничениях (курсив авторский):

«Аналитическая машина не претендует на то, чтобы создавать что-то действительно новое [англ. ”originate”]. Машина может выполнить все то, что мы умеем ей предписать».


Пройдет столетие, и Алан Тьюринг попытается поспорить с этим аргументом, чтобы доказать возможность существования разумных машин. Его слабое место, по мнению Тьюринга — определение «новизны». В самом деле, а какова степень оригинальности того, что творит человек? «Кто может быть уверенным в том, что выполненная им «оригинальная работа» не была ростком из зерна, посеянного образованием, или просто результатом применения хорошо известных общих принципов?» - аппелирует он.

Поэтому более корректное прочтение тезиса Лавлейс Тьюринг видел как «машина никогда не может ничем удивить человека». Другими словами, для его опровержения машине нужно продемонстрировать что-нибудь, что не было ей предписано.

Формализация этой идеи была осуществлена уже ближе к нашим дням, в 2000 году С. Брингсйордом, П. Белло и Д. Феруччи. Исследователи рассматривают тезис Лавлейс в достаточно глубоком философском контексте и в контексте теории информации. И выводят строгое определение субъекта, который считается прошедшим тест Лавлейс. В упрощенном виде оно выглядит так. Система выдает результат, а ее создатели, обладая полным знанием о том, как работает система, и располагая ее ресурсами, не могут объяснить, как этот результат получился. Естественно, результат не может быть следствием случайного сбоя и должен воспроизводиться системой.

Cелмер Брингсйорд в 2005

Предложенное определение является строгим не только в смысле «четкости». Авторы, опять же призвав в помощники философию и информатику, признают, что даже с точки зрения теории создать такую систему — нетривиальная задача. «...То, что нужно Лавлейс, может требовать степень автономии, которая находится за гранью обыденной причинности и математики».

Научная работа вызвала критику со стороны коллег. Главной претензией было то, что осуществимость данного теста находится настолько «за гранью причинности», что выполнить его условия невозможно, просто исходя из логики. Действительно, если у нас есть полное, абсолютное знание об архитектуре системы, ее функциях и их имплементации, базе знаний и т. п. - то почему мы не можем определить, как система достигает того или иного результата? Разве что частью системы является некая «божья искра», принципиально непознаваемый элемент. Однако тут уже нам светит бритва Оккама. Философия философией, но у леди Лавлейс про «божью искру» точно ничего не было. И строить на такой основе практический тест явно не стоит.

Однако идея Лавлейс после этого не была заброшена. Новую попытку предпринял в 2014 Марк Ридл. И, на мой взгляд, попытка эта оказалось намного более удачной. Ридл решил построить свой вариант теста на другом аспекте тезиса Лавлейс, а именно на творчестве. Кстати, такое прочтение не так уж и далеко от оригинала — приведенная выше цитата Лавлейс имеет контекст научной деятельности.


И я практически уверен в том, что Ада Лавлейс одобрила бы новую трактовку своей идеи. Графиня, помимо блестящих способностей в математике, имела широчайший круг интересов и необычное стремление слить воедино гармонию и алгебру. Себя она называла «аналитиком (и метафизиком)», а свой подход - «поэтической наукой»; Ч. Бэббидж прозвал её «заклинательницей чисел». К слову, последние годы своей недолгой жизни леди Лавлейс работала над взаимосвязями математики и музыки.

Итак, творчество. Подлинно глубокая концепция, неразрывно связанная с понятием разума, а также воображением, эстетикой и многими другими важными категориями. И все же вариант, предлагаемый М. Ридлом, дистанцируется от всякой философии и выглядит очень просто.

Наша система должна создать творческое произведение хорошо известного типа, например из художественной литературы, или живописи, или музыки и т. д. При этом произведение должно учитывать указания, заранее заданные экзаменатором. Ридл приводит такой пример: «напиши историю, в которой (I) мальчик (II) влюбляется в девочку, (III) инопланетяне похищают мальчика, и девочка (IV) спасает мир (V) с помощью говорящего кота».

Не знаю насчет Декарта и Лавлейс, но Льюис Кэрролл эту историю одобрил бы. Ох уж эти математики...

Набор указаний, каждый раз уникальный, нужен для того, чтобы получившееся произведение отвечало критериям новизны и неожиданности. В противном случае создателям алгоритма достаточно заложить в него несколько готовых, написанных людьми вариантов. Римскими цифрами я, в меру своего понимания, пронумеровал отдельные указания. Их количество позволяет сравнивать несколько систем: чем больше указаний мы выдвигаем, тем сложнее алгоритму выдать качественный результат, одновременно выполнив их все.

Тем не менее, набор указаний всегда должен быть вполне под силу человеку. Ридл рекомендует экзаменаторам формировать набор указаний с позиции скептика: то есть, целенаправленно создавать набор, с которым машина, по их мнению, не справится. Тест повторяется итеративно, начиная с минимального числа указаний, которое повышается, если машина проходит предыдущий этап.

Но как определить, действительно ли машина справилась с заданием? Ридл полагается только на добрую волю и чистую совесть экзаменатора. Достаточно, чтобы он посчитал указания соблюденными, а произведение — действительно принадлежащим заданному типу. Эстетические качества произведения не оцениваются.

Субъективность? Да, именно так. И в очень опасных количествах. Несмотря на более жесткие рамки взаимодействия человека и машины, тест Лавлейс 2.0 (как обозначает его Ридл) по объективности сильно уступает даже тесту Тьюринга, который, в свою очередь, очень далек от идеала.


Тем не менее, мы можем предложить несколько шагов для выправления ситуации. Во-первых, для нас важно, чтобы набор указаний был выполним для автора-человека. Единственный способ убедиться в этом — дать идентичное задание на пробу нескольким людям, своеобразной «фокус-группе». Так мы получаем референтный набор произведений, своеобразную точку отсчета, относительно которой можно оценивать творчество машины.

Следующий шаг — перемешать человеческие произведения с машинными, чтобы экзаменатор оценивал их «вслепую». Тогда результат оценки не будет страдать от предубеждений, будь то скепсис или оптимизм в отношении машин. Разумно ввести некую шкалу оценок в баллах, чтобы ранжировать работы в рамках одного набора указаний. Если машина занимает первые строчки — добро пожаловать на следующий этап, с увеличившимся количеством условий.

Здесь есть еще одна проблема. Ридл считает референтным результат творчества «среднего человека, не обладающего специальными навыками». Мне сложно судить о навыках «среднего человека». Но лично меня, несмотря на то, что я более-менее регулярно пишу в блог длинные тексты, предложение написать «историю о мальчике, влюбившемся в девочку» повергло бы в некий ступор. И, подозреваю, не меня одного. О литературных способностях «среднего человека» вряд ли осведомлены даже сотрудники издательств, пропускающие через себя тонны графомании — потому что даже графомания требует усердия и бойкости пера, которые «средний человек» в обычной жизни попросту не демонстрирует.


Ридл вряд ли случайно берет в качестве примера литературу. Потому что в других видах искусств наличие навыков практически обязательно. Чтобы сносно создавать графику, нужно несколько лет практики. Аналогичны требования для академической, или, скажем, джазовой музыки. У современных жанров музыки этот порог ниже, но и здесь «средний человек», даже снабженный всем необходимым программным обеспечением, вряд ли сотворит что-то слушабельное.

Приходится признать, что творчество требует специальных навыков. Также очевидно, что большинство людей не занимаются творческой деятельностью, и эти навыки у них не развиты. Есть ли смысл сопоставлять их с машиной, для которой творчество является главной целью? Лучшим вариантом будет привлечение в «фокус-группы» профильных творцов, а не «средних людей». Возможно даже — сильных профильных творцов, чтобы у машины были достойные конкуренты.

Cтоль подробные требования к роли людей в испытании сигнализирует о том, что формулировка теста Лавлейс 2.0 также антропоцентрична. Но сама идея, положенная в его основу, является более фундаментальной, чем в случае теста Тьюринга. Эталон в тесте Тьюринга — это только человек. Тест Лавлейс определяет гораздо более общие способности: создавать очень сложные объекты с требуемыми характеристиками. При необходимости, видоизменив условия теста, мы можем давать машине задачи вне традиционных человеческих представлений.


Чтобы подчеркнуть более общий характер тестируемых способностей, назовём несколько требований к ИИ, потенциально готовому к испытанию. Но для начала отметим, что литература является наиболее требовательным «полем творчества» для машин. Это один из наиболее богатых в средствах выразительности видов искусств. Если ИИ удастся совладать с ним, другие виды покорить будет легче.

В теории ИИ принято разделять мыслительные способности на разные функциональные области, или домены. Одним из наиболее трудно реализуемых, и одновременно критически важных в создании произведения доменов является способность формировать иерархию абстракций.

Поясним эту способность на примере. Для литературного произведения самым высоким уровнем абстракции является фабула. Это тот самый «скелет», «ядро» истории, из которого растет повествование. Именно на этом, базовом, уровне в произведение может быть интегрирован набор указаний экзаменатора, определяя таким образом весь последующий результат.

Ниже уровнем находятся персонажи и среда, в которой они находятся. Для них, в свою очередь, есть абстракции более низкого уровня. Для персонажей — мотивация, характер и взаимоотношения с другими персонажами, для среды — локации и не зависящие от персонажей события. Всё это интегрируется в фабулу через последовательность сцен, в которых персонажи выполняют определенные действия, а среда обрастает деталями. И вот эти-то действия и детали, наконец, состоят из отдельных слов, которые в обработке естественного языка обычно считаются своего рода «атомами», неделимыми единицами.


Короче, получается вариация на тему «Вот дом, который построил Джек...». И со всем этим сложным абстрактным хозяйством машине надлежит весьма ловко управляться. Так что cочинение историй «о мальчике, влюбившемся в девочку» не настолько просто, как может показаться.

Еще два домена, которые будут очень нужны ИИ-автору — commonsense knowledge и commonsense reasoning. Первое — это знание окружающего мира, мира, в котором существует автор и читатели. Оно необходимо для создания знакомой читателю среды и достоверных персонажей, для придания иллюзии реализма вымышленному миру. Второе — понимание закономерностей, действующих в окружающем мире. Это нужно для того, чтобы в повествовании была логика и смысл, чтобы ход сюжета не имел пробелов и казался естественным.

С широким списком других функциональных доменов мы познакомимся позже, рассматривая другие тесты. Теперь же давайте посмотрим, насколько близко мы приблизились к созданию программ, претендующих на прохождение теста Лавлейс.


В этой области тоже существует свой ежегодный конкурс, который носит название «Creative Turing Tests». Как видно из названия, организаторы видоизменили условия творческого испытания с целью приблизить его к тьюринговой «игре в имитацию» (что, на мой взгляд, идёт в ущерб тестам). То есть «судьям»-людям нужно было определить, какое из произведений принадлежит человеку, а какое сгенерировано алгоритмом. В литературной секции конкурса (последние результаты опубликованы за 2017 год) было две номинации: поэзия (сонет) и проза (рассказ).

Поэтическая форма многое прощает машине: смутность, даже запутанность образов и отсутствие четкой структуры в нарративе здесь воспринимается как должное. Так что тот факт, что сонету-победителю конкурса удалось обмануть «судей», не должен вас удивлять. Хотя лично мне тяжело воспринимать этот рифмованный набор словосочетаний. Меня, конечно, не назовешь большим ценителем английской поэзии, но всё-таки...

[Конечно, это не Шекспир. Далеко не Шекспир...]
О программе, создавшей сонет, известно мало, но с большой вероятностью это искусственная нейросеть. Кстати, ее разработчики трудятся в Thomson Reuters Research, опять же с большой вероятностью — в области автоматизированной журналистики.

Конкурс на сгенерированный рассказ не состоялся из-за отсутствия конкурсантов. Причина очевидна: слишком высокая планка сложности. Видимо, что-то уровня вышеприведенного сонета уже «не прокатит» для сколь-нибудь умеющих читать судей.

Зато музыкальная секция конкурса вполне удалась. Музыка представляет собой абстрактный вид искусства, что существенным образом облегчает задачу ее генерации. Организаторы поставили довольно простую задачу: воспроизвести аккомпанемент для пианиста, играющего определенную мелодию. Победитель — программа «Music Plus One» - по оценке жюри, справился с задачей даже лучше человека. Убедитесь сами, пройдя по ссылке.

Однако этот конкурс показывает лишь малую часть возможностей машин в композиции. Эксперименты в этом направлении начались еще в 1980-е. Долгое время программы выдавали результат в символическом виде, т. е. с помощью нотной записи. Только совсем недавно, с 2016, вычислительных ресурсов стало хватать для работы со звуком напрямую. Вот пара достойных примеров:




WaveNet представляет собой вариант сверточной нейросети. SampleRNN, как видно из названия — рекуррентная нейросеть. Вообще, методы машинного обучения сейчас завоевывают всё большую популярность в машинном творчестве. И если генерация музыки - пока маргинальное направление, то визуальным произведениям уже было посвящено несколько крупных выставок по всему миру.

Нейросети пробуют свои силы как в абстрактном направлении...



...причем не только в «цифре», но и в материальном мире...

… так и в классических жанрах, например пейзаже:

22.png

Здесь особенно стоит отметить работы комплекса нейросетей, созданного Майком Тайка. Самые удачные образцы очень правдоподобны и, что немаловажно, обладают более-менее приличным разрешением:

22.png

22.png


Это портреты людей, которых никогда не существовало. Алгоритм (DCGAN+дополнительные вспомогательные техники) был обучен на большом количестве реальных фото и в итоге сформировал ряд общих представлений о том, как может выглядеть человеческое лицо. Но для того, чтобы продемонстрировать сложности и ограничения для этого подхода с точки зрения теста Лавлейс 2.0, давайте познакомимся с еще одной системой. Тоже умеющей генерировать... э-э-э, портреты.

22.png

Система имеет интерактивную онлайн-версию. И в ней нас интересуют не анимешные девочки как таковые, а технические детали. В правой части мы видим набор параметров. Вспомним, что в тесте Лавлейс 2.0 экзаменатор дает ряд указаний, которым обязана следовать машина. Насколько сложные указания может выполнить MakeGirlsMoe?

Во-первых, творчество этой системы ограничено созданием аниме-персонажей. Аналогичным образом, система Майка Тайка может создавать только портреты людей, а SampleRNN, обученная на симфониях Моцарта — симфонические отрывки в стиле этого композитора. И это очень важный момент: качественные результаты машинное обучение даёт именно за счет специализации на определенной области. Попытки добиться универсальности пока имеют мало успехов.

В то время как указания в тесте Лавлейс 2.0 ограничены только минимальными требованиями здравого смысла. Это прямо соотносится с нашей постановкой вопроса о рамках способностей машин. В случае специализации эти рамки узки. Но от ИИ требуется демонстрировать умения в обширном пространстве возможных требований.

Во-вторых, набор параметров позволяет нам оценить сложность инструкций для MakeGirlsMoe количественно. 13 цветов волос — это 4 бита, 10 цветов глаз — еще 4 бита, 5 причесок — 3 бита. «Румянец», «открытость рта», «ленточка», «темная кожа», «улыбка», «шляпа» и «очки», имеющие значение «вкл.»/«выкл.» - еще по биту на каждый. Итого 18 бит. Остальные параметры семантически не выделены.

Какую сложность имеет приведенный пример Ридла про мальчика, влюбившегося в девочку, и далее по тексту? Здесь много нюансов, причем существенно влияющих на результат. Но давайте возьмем самую грубую прикидку. Предположим, что в базовом наборе русского языка 8192 слова (скажем, в словаре Ожегова содержится около 100 тыс. слов). Тогда, отбросив служебные частицы, получим 12 слов по 13 бит, т. е. 156 бит.

Разница может показаться небольшой, но на самом деле требования к количеству обучающего материала, объему вычислений, затрачиваемому на обучение, и сложности алгоритма здесь растут экспоненциально. К слову, 18 бит формализованных параметров в MakeGirlsMoe – это больше, чем я видел в других системах подобного рода.

В общем виде проблема универсальности машинной системы, важная далеко не только для творчества, упирается в построение достаточно сложных и богатых представлений об окружающем мире. И, поскольку искусство является одной из форм выражения этих представлений, тест Лавлейс 2.0 действительно может измерять прогресс в создании ИИ.

А закончить разговор я бы всё-таки хотел, вернувшись к словам леди Лавлейс о выполнении только того, что предписано. Не так уж и давно, несколько десятков тысяч лет назад биологическая программа предписывала обезьянам рода Homo только есть, пить и размножаться. У этих обезьян были свои рамки способностей. И Homo удалось перешагнуть через них.

22.png

22.png

Но следующий шаг предстоит сделать уже машине.


>> 3. "Когнитивное десятиборье" и тест Возняка >>

Tags: ИИ, технологии
Subscribe

  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 3 comments