Тест тьюринга что это
Перейти к содержимому

Тест тьюринга что это

Вся правда о тесте Тьюринга

Когда боты смогут говорить с людьми на равных, это станет важной вехой для ИИ, но не таким уж значительным моментом, как его рисуют научные фантасты. Филлип Болл с BBC провел исследование сильных и слабых сторон противоречивого теста Тьюринга. Алан Тьюринг сделал множество предсказаний на тему искусственного интеллекта, но одно из них может показаться знакомым для тех, кто слышал предупреждения Стивена Хокинга или Элона Маска на тему угрозы ИИ в 2015 году. «На каком-то этапе… мы должны ожидать, что машины перехватят контроль», — писал Тьюринг в 1951 году.

При этом он не только был настроен оптимистично по поводу перспектив, но и, возможно, наслаждался ими: его друг Робин Ганди вспоминал, что когда Тьюринг читал некоторые пассажи в своей основополагающей работе «Тест Тьюринга», он «всегда улыбался, иногда хихикал». Как минимум это дает нам повод усомниться в грустном изображении Тьюринга в биографическом фильме 2014 года «Игра в имитацию».

Тьюринг повлиял на то, как мы видим ИИ — тест Тьюринга часто приводят в качестве важного порога, который должен преодолеть искусственный интеллект на пути к истинному интеллекту. Если машинный интеллект сможет обмануть человека в процессе разговора, предположил Тьюринг, это будет очень важный момент.

Кроме того, на тест Тьюринга часто ссылались в изображениях роботов и искусственной жизни в популярной культуре — из последних можно припомнить «Из машины» Алекса Гарленда. Чаще всего, эти литературные представления показывали тест Тьюринга неверно, превращая его в чистую меру того, может ли робот превзойти человека. Оригинальный тест Тьюринга предназначался не для этого, а скорее для принятия решения, можно ли посчитать, что машина думает в манере, неотличимой от человеческой, — и это, как говорил сам Тьюринг, зависит от того, какие вопросы вы задаете.

Возьмем, к примеру, игры. Чтобы соперничать с человеческими когнитивными возможностями или превзойти их в чем-то более сложном, чем простой перебор цифр, Тьюринг предположил, что машина может начать с шахмат — игры, которая ассоциируется со стратегическим мышлением. После победы Deep Blue над чемпионом мира по шахматам Гарри Каспаровым в 1997 году, мы явно пересекли этот порог. Теперь у нас есть алгоритмы, которые чуть ли не всесильны (в долгосрочной перспективе) при игре в покер.

А как насчет чего-то более творческого и невыразимого, вроде музыки? Машины и здесь могут нас надурить. Уже существует музыкальный компьютер lamus, который производит настолько сложные работы, что они достойны внимания профессиональных музыкантов. Разработчик lamus Франциско Вико из Университета Малаги и его коллеги провели тест Тьюринга, попросив 250 субъектов — половина из которых была представлена профессиональными музыкантами — прослушать одну из композиций «ламуса» и музыку похожего стиля, написанную людьми, и решить, кто есть кто. «Произведения компьютера вызывали те же чувства и эмоции, что и написанные людьми, опрашиваемые не могли их различить, — говорит Вико. — Похожие результаты мы могли получить, подбросив монетку».

Некоторые утверждают, что компьютерная поэзия тоже прошла тест, хотя с оговоркой, мол, судьи попались не проницательные. Вдумайтесь в строку: «О, сладкий запах твой, алмазная архитектура».

Есть еще «сенсорный тест Тьюринга». Сам Тьюринг утверждал, что если мы когда-нибудь обнаружим материал, который может идеально имитировать человеческую кожу, едва ли мы будем пытаться сделать машину человечней, наращивая ей искусственное мясо. Тем не менее робот Ава в фильме «Из машины» показал, что это целесообразно, так как такая машина идеально вольется в человеческое общество.

Аве точно понравится, но некоторые исследователи роботов считают, что существуют весьма веские этические причины оставлять зазор между людьми и роботами.

Несколько более прозаической причиной необходимости разработки новых вариаций теста Тьюринга может быть задача не обмануть человека, а просто определить возможности машины. Ученый из области информатики Стюарт Геман из Брауновского университета в Провиденсе, штат Род-Айленд, и сотрудники Университета Джона Хопкинса в Балтиморе недавно описали «визуальный тест Тьюринга» для системы компьютерного зрения, которая научилась извлекать осмысленные отношения и тезисы из сцены, как это делаем мы, а не просто идентифицировать отдельные объекты. Такая способность станет чрезвычайно важной в свете развития систем шпионажа и биометрического сканирования.

Что касается оригинального теста Тьюринга, его будущее, вероятно, будет в Интернете. Онлайн-игроки уже иногда сомневаются в том, соперничают они с человеком или с игровым ботом — а некоторые вообще предпочитают играть с ботами. Некоторые общаются с ботами в чатах.

В общем, хотя машины уже способны на многое, до изящной реализации знаменитого теста им еще придется потрудиться.

Тест Тьюринга

Тест Тьюринга — эмпирический тест, идея которого была предложена Аланом Тьюрингом в статье «Вычислительные машины и разум» (англ.  Computing Machinery and Intelligence ), опубликованной в 1950 году в философском журнале «Mind». Тьюринг задался целью определить, может ли машина мыслить.

Стандартная интерпретация этого теста звучит следующим образом: «Человек взаимодействует с одним компьютером и одним человеком. На основании ответов на вопросы он должен определить, с кем он разговаривает: с человеком или компьютерной программой. Задача компьютерной программы — ввести человека в заблуждение, заставив сделать неверный выбор».

Все участники теста не видят друг друга. Если судья не может сказать определенно, кто из собеседников является человеком, то считается, что машина прошла тест. Чтобы протестировать именно интеллект машины, а не её возможность распознавать устную речь, беседа ведется в режиме «только текст», например, с помощью клавиатуры и экрана (компьютера-посредника). Переписка должна производиться через контролируемые промежутки времени, чтобы судья не мог делать заключения, исходя из скорости ответов. Во времена Тьюринга компьютеры реагировали медленнее человека. Сейчас это правило необходимо, потому что они реагируют гораздо быстрее, чем человек.

Содержание

История

Философские предпосылки

Хотя исследования в области искусственного интеллекта начались в 1956 году, их философские корни уходят глубоко в прошлое. Вопрос, сможет машина думать или нет, имеет долгую историю. Он тесно связан с различиями между дуалистическим и материалистическим взглядами. С точки зрения дуализма, мысль не является материальной (или, по крайней мере, не имеет материальных свойств), и поэтому разум нельзя объяснить только с помощью физических понятий. С другой стороны, материализм гласит, что разум можно объяснить физически, таким образом, оставляя возможность существования разумов, созданных искусственно.

В 1936 году философ Альфред Айер рассмотрел обычный для философии вопрос касательно других разумов: как узнать, что другие люди имеют тот же сознательный опыт, что и мы? В своей книге «Язык, истина и логика» Айер предложил алгоритм распознавания осознающего человека и не осознающей машины: «Единственным основанием, на котором я могу утверждать, что объект, который кажется разумным, на самом деле не разумное существо, а просто глупая машина, является то, что он не может пройти один из эмпирических тестов, согласно которым определяется наличие или отсутствие сознания». Это высказывание очень похоже на тест Тьюринга, однако точно неизвестно, была ли известна Тьюрингу популярная философская классика Айера.

Несмотря на то, что прошло больше 50 лет, тест Тьюринга не потерял своей значимости. Но в настоящее время исследователи искусственного интеллекта практически не занимаются решением задачи прохождения теста Тьюринга, считая, что гораздо важнее изучить основополагающие принципы интеллекта, чем продублировать одного из носителей естественного интеллекта. В частности, проблему «искусственного полета» удалось успешно решить лишь после того, как братья Райт и другие исследователи перестали имитировать птиц и приступили к изучению аэродинамики. В научных и технических работах по воздухоплаванию цель этой области знаний не определяется как «создание машин, которые в своем полете настолько напоминают голубей, что даже могут обмануть настоящих птиц». [1]

Алан Тьюринг

К 1956 году британские учёные уже на протяжении 10 лет исследовали «машинный интеллект». Этот вопрос был обычным предметом для обсуждения среди членов «Ratio Club» — неформальной группы британских кибернетиков и исследователей в области электроники, в которой состоял и Алан Тьюринг, в честь которого был назван тест.

Тьюринг в особенности занимался проблемой машинного интеллекта, по меньшей мере, с 1941 года. Одно из самых первых его упоминаний о «компьютерном интеллекте» было сделано в 1947 году. В докладе «Интеллектуальные машины» Тьюринг исследовал вопрос, может ли машина обнаруживать разумное поведение, и в рамках этого исследования предложил то, что может считаться предтечей его дальнейших исследований: «Нетрудно разработать машину, которая будет неплохо играть в шахматы. Теперь возьмем трех человек — субъектов эксперимента. А, В и С. Пусть А и С неважно играют в шахматы, а В — оператор машины. […] Используются две комнаты, а также некоторый механизм для передачи сообщений о ходах. Участник С играет или с А, или с машиной. Участник С может затрудниться ответить с кем он играет».

Таким образом, к моменту публикации в 1950 году статьи «Вычислительные машины и разум», Тьюринг уже на протяжении многих лет рассматривал возможность существования искусственного интеллекта. Тем не менее, данная статья стала первой статьёй Тьюринга, в которой рассматривалось исключительно это понятие.

Тьюринг начинает свою статью утверждением: «Я предлагаю рассмотреть вопрос „Могут ли машины думать?“». Он подчёркивает, что традиционный подход к этому вопросу состоит в том, чтобы сначала определить понятия «машина» и «интеллект». Тьюринг, однако, выбрал другой путь; вместо этого он заменил исходный вопрос другим, «который тесно связан с исходным и формулируется относительно недвусмысленно». По существу, он предлагает заменить вопрос «Думают ли машины?» вопросом «Могут ли машины делать то, что можем делать мы (как мыслящие создания)?». Преимуществом нового вопроса, как утверждает Тьюринг, является то, что он проводит «чёткую границу между физическими и интеллектуальными возможностями человека».

Чтобы продемонстрировать этот подход, Тьюринг предлагает тест, придуманный по аналогии с игрой для вечеринок «Imitation game» — имитационная игра. В этой игре мужчина и женщина направляются в разные комнаты, а гости пытаются различить их, задавая им серию письменных вопросов и читая напечатанные на машинке ответы на них. По правилам игры и мужчина, и женщина пытаются убедить гостей, что все наоборот. Тьюринг предлагает переделать игру следующим образом: «Теперь зададим вопрос, что случится, если в этой игре роль А будет исполнять машина? Будет ли задающий вопросы ошибаться так же часто, как если бы он играл с мужчиной и женщиной? Эти вопросы заменяют собой исходный «Может ли машина думать?».

В том же докладе Тьюринг позднее предлагает «эквивалентную» альтернативную формулировку, включающую судью, который беседует только с компьютером и человеком. Наряду с тем, что ни одна из этих формулировок точно не соответствует той версии теста Тьюринга, которая наиболее известна сегодня, в 1952 учёный предложил третью. В этой версии теста, которую Тьюринг обсудил в эфире радио Би-Би-Си, жюри задает вопросы компьютеру, а роль компьютера состоит в том, чтобы заставить значительную часть членов жюри поверить, что он на самом деле человек.

В статье Тьюринга учтены 9 предполагаемых вопросов, которые включают все основные возражения против искусственного интеллекта, поднятые после того, как статья была впервые опубликована.

Элиза и PARRY

Блей Витби указывает на 4 основные поворотные точки в истории теста Тьюринга — публикация статьи «Вычислительные машины и разум» в 1950, сообщение о создании Джозефом Уайзенбаумом программы Элиза (ELIZA) в 1966, создание Кеннетом Колби программы PARRY, которая была впервые описана в 1972 году, и Коллоквиум Тьюринга в 1990.

Принцип работы Элизы заключается в исследовании введенных пользователем комментариев на наличие ключевых слов. Если найдено ключевое слово, то применяется правило, по которому комментарий пользователя преобразуется и возвращается предложение-результат. Если же ключевое слово не найдено, Элиза либо возвращает пользователю общий ответ, либо повторяет один из предыдущих комментариев. Вдобавок Уайзенбаум запрограммировал Элизу на имитацию поведения психотерапевта, работающего по клиент-центрированной методике. Это позволяет Элизе «притвориться, что она не знает почти ничего о реальном мире». Применяя эти способы, программа Уайзенбаума могла вводить в заблуждение некоторых людей, которые думали, что они разговаривают с реально существующим человеком, а некоторых было «очень трудно убедить, что Элиза […] не человек». На этом основании некоторые утверждают, что Элиза — одна из программ (возможно первая), которые смогли пройти тест Тьюринга. Однако это утверждение очень спорно, так как людей, «задающих вопросы», инструктировали так, чтобы они думали, что с ними будет разговаривать настоящий психотерапевт, и не подозревали о том, что они могут разговаривать с компьютером.

Работа Колби — PARRY — была описана, как «Элиза с мнениями»: программа пыталась моделировать поведение параноидального шизофреника, используя схожий (если не более продвинутый) с Элизой подход, примененный Уайзенбаумом. Для того чтобы проверить программу, PARRY тестировали в начале 70-х, используя модификацию теста Тьюринга. Команда опытных психиатров анализировала группу, составленную из настоящих пациентов и компьютеров под управлением PARRY, используя телетайп. Другой команде из 33 психиатров позже показали стенограммы бесед. Затем обе команды попросили определить, кто из «пациентов» — человек, а кто — компьютерная программа. Психиатры лишь в 48 % случаев смогли вынести верное решение. Эта цифра согласуется с вероятностью случайного выбора. Заметьте, что эти эксперименты не являлись тестами Тьюринга в полном смысле, так как для вынесения решения данный тест требует, чтобы вопросы можно было задавать в интерактивном режиме, вместо чтения стенограммы прошедшей беседы.

Пока что ни одна программа и близко не подошла к прохождению теста. Хотя такие программы, как Элиза ( ELIZA ), иногда заставляли людей верить, что они говорят с человеком, как, например, в неформальном эксперименте, названном AOLiza , но эти случаи нельзя считать корректным прохождением теста Тьюринга по целому ряду причин:

  • Человек в таких беседах не имел никаких оснований считать, что он говорит с программой, в то время как в настоящем тесте Тьюринга человек активно пытается определить, с кем он беседует.
  • Документированные случаи обычно относятся к таким чатам, как IRC, где многие беседы отрывочны и бессмысленны.
  • Многие пользователи Интернета используют английский как второй или третий язык, так что бессмысленный ответ программы легко может быть списан на языковой барьер.
  • Многие просто ничего не знают об Элизе и ей подобных программах, и поэтому не сочтут собеседника программой даже в случае совершенно нечеловеческих ошибок, которые эти программы допускают.

Китайская комната

В 1980 году в статье «Разум, мозг и программы» Джон Сёрль выдвинул аргумент против теста Тьюринга, известный как мысленный эксперимент «Китайская комната». Сёрль настаивал, что программы (такие как Элиза) смогли пройти тест Тьюринга, просто манипулируя символами, значения которых они не понимали. А без понимания их нельзя считать «разумными» в том же смысле, что и людей. «Таким образом, — заключает Сёрль, — тест Тьюринга не является доказательством того, что машина может думать, а это противоречит изначальному предположению Тьюринга».

Такие аргументы, как предложенный Сёрлем, а также другие, основанные на философии разума, породили намного более бурные дискуссии о природе разума, возможности существования разумных машин и значимости теста Тьюринга, продолжавшиеся в течение 80-х и 90-х годов.

Коллоквиум Тьюринга

В 1990 году состоялась сороковая годовщина публикации статьи Тьюринга «Вычислительные машины и разум», что возобновило интерес к тесту. В этом году произошли два важных события.

Одно из них — коллоквиум Тьюринга, который проходил в апреле в Университете Сассекса. В его рамках встретились академики и исследователи из разнообразных областей науки, чтобы обсудить тест Тьюринга с позиций его прошлого, настоящего и будущего. Вторым событием стало учреждение ежегодного соревнования на получение премии Лёбнера.

Премия Лёбнера

Ежегодный конкурс на получение премии Лёбнера является платформой для практического проведения тестов Тьюринга. Первый конкурс прошел в ноябре 1991 года. Приз гарантирован Хью Лёбнером (Hugh Loebner). Кембриджский центр исследований поведения, расположенный в Массачусетсе, США, предоставлял призы до 2003 года включительно. По словам Лёбнера, соревнование было организовано с целью продвижения вперед в области исследований, связанных с искусственным интеллектом, отчасти потому, что «никто не предпринял мер, чтобы это осуществить».

Серебряная (аудио) и золотая (аудио и зрительная) медали никогда ещё не вручались. Тем не менее, ежегодно из всех представленных на конкурс компьютерных систем судьи награждают бронзовой медалью ту, которая, по их мнению, продемонстрирует «наиболее человеческое» поведение в разговоре. Не так давно программа «Искусственное лингвистическое интернет-компьютерное существо» (Artificial Linguistic Internet Computer Entity — A.L.I.C.E.) трижды завоевала бронзовую медаль (в 2000, 2001 и 2004). Способная к обучению программа Jabberwacky  (англ.) побеждала в 2005 и 2006. Её создатели предложили персонализированную версию: возможность пройти имитационный тест, пытаясь более точно сымитировать человека, с которым машина тесно пообщалась перед тестом.

Конкурс проверяет способность разговаривать; победителями становятся обычно чат-боты или «Искусственные разговорные существа» (Artificial Conversational Entities (ACE)s). Правилами первых конкурсов предусматривалось ограничение. Согласно этому ограничению каждая беседа с программой или скрытым человеком могла быть только на одну тему. Начиная с конкурса 1995 года это правило отменено. Продолжительность разговора между судьей и участником была различной в разные годы. В 2003 году, когда конкурс проходил в Университете Суррея, каждый судья мог разговаривать с каждым участником (машиной или человеком) ровно 5 минут. С 2004 по 2007 это время составляло уже более 20 минут. В 2008 максимальное время разговора составляло 5 минут на пару, потому что организатор Кевин Ворвик (Kevin Warwick) и координатор Хьюма Ша (Huma Shah) полагали, что ACE не имели технических возможностей поддерживать более продолжительную беседу. Как ни странно, победитель 2008 года, Elbot  (англ.) , не притворялся человеком, но всё-таки сумел обмануть трех судей. В конкурсе проведенном в 2010 году, было увеличено время до 25 минут при общении между системой и исследователем, по требованию спонсора. Что только подтверждает, программы подросли в имитации человеку и только лишь при длительной беседе появляются минусы, позволяющие вычислять собеседника. А вот конкурс проведенный 15 мая 2012 года, состоялся впервые в мире с прямой трансляцией беседы, что только поднимает интерес к данному конкурсу.

Появление конкурса на получение премии Лёбнера привело к возобновлению дискуссий о целесообразности теста Тьюринга, о значении его прохождения. В статье «Искусственная тупость» газеты The Economist отмечается, что первая программа-победитель конкурса смогла выиграть отчасти потому, что она «имитировала человеческие опечатки». (Тьюринг предложил, чтобы программы добавляли ошибки в вывод, чтобы быть более хорошими «игроками».) Существовало мнение, что попытки пройти тест Тьюринга просто препятствуют более плодотворным исследованиям.

Во время первых конкурсов была выявлена вторая проблема: участие недостаточно компетентных судей, которые поддавались умело организованным манипуляциям, а не тому, что можно считать интеллектом.

Тем не менее, с 2004 года в качестве собеседников в конкурсе принимают участие философы, компьютерные специалисты и журналисты.

Стоит заметить, что полного диалога с машиной пока не существует, а то что есть больше напоминает общение в кругу друзей когда отвечаешь на вопрос одного, а следом задает вопрос другой или как бы на твой вопрос отвечает совершено посторонний. На этом, в принципе и можно ловить машинную программу, если как по тесту Тьюринга, а в целом очень даже забавно можно скоротать время и попробовать себя в роли судей на конкурсе премии Лёбнера.

Судейство на конкурсе очень строгое. Эксперты заранее готовятся к турниру и подбирают весьма заковыристые вопросы, чтобы понять, с кем же они общаются. Их разговор с программами напоминает допрос следователя. Судьи любят, например, повторять некоторые вопросы через определенное время, так как слабые боты не умеют следить за историей диалога и их можно поймать на однообразных ответах. [2]

Коллоквиум по разговорным системам, 2005

В ноябре 2005 года в Университете Суррея проходила однодневная встреча разработчиков ACE , которую посетили победители практических тестов Тьюринга, проходивших в рамках конкурса на получение премии Лёбнера: Робби Гарнер (Robby Garner), Ричард Уоллес (Richard Wallace), Ролл Карпентер (Rollo Carpenter). В числе приглашенных докладчиков были Дэвид Хэмилл (David Hamill), Хью Лёбнер и Хьюма Ша.

Симпозиум общества AISB по тесту Тьюринга, 2008

В 2008 году наряду с проведением очередного конкурса на получение премии Лёбнера, проходившего в Университете Рединга (University of Reading), Общество изучения искусственного интеллекта и моделирования поведения (The Society for the Study of Artificial Intelligence and Simulation of Behavior — AISB) провело однодневный симпозиум, на котором обсуждался тест Тьюринга. Симпозиум организовали Джон Бенден (John Barnden), Марк Бишоп (Mark Bishop), Хьюма Ша и Кевин Ворвик. В числе докладчиков были директор Королевского института баронесса Сьюзан Гринфилд (Susan Greenfield), Сельмер Брингсорд (Selmer Bringsjord), биограф Тьюринга Эндрю Ходжес (Andrew Hodges) и ученый Оуэн Холланд (Owen Holland). Никакого соглашения о каноническом тесте Тьюринга не появилось, однако Брингсорд предположил, что более крупная премия будет способствовать тому, что тест Тьюринга будет пройден быстрее.

Год Алана Тьюринга и Тьюринг-100 в 2012

В 2012 году будет отмечаться юбилей Алана Тьюринга. На протяжении всего года будет проходить множество больших мероприятий. Многие из них будут проходить в местах, имевших большое значение в жизни Тьюринга: Кембридж, Манчестер и Блетчи Парк. Год Алана Тьюринга курируется организацией TCAC (Turing Centenary Advisory Committee), осуществляющей профессиональную и организационную поддержку мероприятий в 2012 году. Также поддержкой мероприятий занимаются: ACM, ASL, SSAISB, BCS, BCTCS, Блетчи Парк, BMC, BLC, CCS, Association CiE, EACSL, EATCS, FoLLI, IACAP, IACR, KGS и LICS.

Для организации мероприятий по празднованию в июне 2012 года столетия со дня рождения Тьюринга создан специальный комитет, задачей которого является донести мысль Тьюринга о разумной машине, отраженную в таких голливудских фильмах, как «Бегущий по лезвию», до широкой публики, включая детей. В работе комитета участвуют: Кевин Ворвик, председатель, Хьюма Ша, координатор, Ян Бланд (Ian Bland), Крис Чапмэн (Chris Chapman), Марк Аллен (Marc Allen), Рори Данлоуп (Rory Dunlop), победители конкурса на получение премии Лёбнера Робби Гарне и Фред Робертс (Fred Roberts). Комитет работает при поддержке организации «Женщины в технике» (Women in Technology) и Daden Ltd.

На этом конкурсе россияне, имена которых не разглашаются, представили программу «Евгений». [3] В 150 проведённых тестах (а по факту пятиминутных разговорах) участвовали пять новейших программ, которые «затерялись» среди 25 обычных людей. Программа «Евгений», изображавшая 13-летнего мальчика, проживающего в Одессе, стала победителем, сумев в 29,2 % своих ответов ввести экзаменаторов в заблуждение. Таким образом, программа не добрала всего 0,8 % для полного прохождения теста.

Что такое тест Тьюринга и почему его так сложно пройти?

Что такое тест Тьюринга и почему его так сложно пройти?

Арсений Горохов изобрел первый персональный компьютер.

Тест проходил в Лондонском королевском обществе, его проведение организовал Университет Рединга, Великобритания. Авторами программы являются российский инженер Владимир Веселов, проживающий в настоящее время в США, и украинец Евгений Демченко, который живёт сейчас в России.

Что такое тест Тьюринга?

Могут ли машины думать? В 1950 году английский математик Алан Тьюринг предложил тест, который позволил бы оценить уровень искусственного интеллекта относительно человеческого. Он был опубликован в философском журнале «Mind».

Стандартная интерпретация теста Тьюринга

Идея проверки предполагала общение человека с другим человеком и с компьютерной программой в течение пяти минут, только в текстовом режиме. Если компьютер сможет обмануть как минимум 30 % собеседников, тест считается пройденным. Эксперты общаются одновременно с живым человеком и роботом, находясь в разных комнатах и не видя друг друга. По окончании теста каждый из них должен сказать, кто из двух его собеседников был человеком, а кто — программой.

Как «Евгений Густман» прошёл тест Тьюринга?

В субботу 7 июня 2014 года суперкомпьютер по имени Eugene попытался воссоздать интеллект тринадцатилетнего подростка — Евгения Густмана.

В тестировании, организованном Школой системной инженерии при Университете Рединга (Великобритания), участвовали пять суперкомпьютеров. Испытание представляло собой серию пятиминутных письменных диалогов.

Разработчикам программы удалось подготовить бота ко всем возможным вопросам и даже обучить его собирать примеры диалогов через Twitter. Кроме того, инженеры наделили героя ярким характером. Притворяясь 13-летним мальчиком, виртуальный «Евгений Густман» не вызывал сомнений у экспертов. Они поверили в то, что мальчик может не знать ответы на многие вопросы, ведь уровень знаний у среднего ребёнка существенно ниже, чем у взрослых. При этом его правильные и точные ответы списывали на необычную эрудицию и начитанность.

В тесте участвовали 25 «скрытых» людей и 5 чат-ботов. Каждый из 30-ти судей провёл по пять чат-сессий, пытаясь определить реальную природу собеседника. Для сравнения, в традиционном ежегодном конкурсе программ искусственного интеллекта на премию Лёбнера* участвует всего 4 программы и 4 скрытых человека.

Впервые программа с «юным одесситом» появилась ещё в 2001 году. Однако лишь в 2012 году она показала действительно серьёзный результат, убедив 29 % судей.

Диаграмма: поведение человека и разумное поведение

* Премия Лёбнера (англ. Loebner prize) — премия, присуждаемая победителю ежегодного конкурса «AI Loebner» (проводится с 1990 г.), в котором соревнуются программы в прохождении теста Тьюринга. Самой «человечной» программе вручается премия в $2000.

Спи спокойно, Алан! Тест Тьюринга и пустые сенсации

Великие личности предстают в наших воспоминаниях совсем не такими, какими они были в жизни. Человеческой памяти свойственно сглаживать «острые углы», а это неизбежно коверкает образ. Столкнись вы сейчас с Аланом Тьюрингом, например, сдружились бы вы с ним — с ним настоящим?

Ведь, с одной стороны, Алан был человеком мягким, обходительным, дружелюбным, максимально аккуратным в некоторых отношениях (читать его рукописи, например, легко, даже если английский язык для вас не родной). С другой — занимался тем, чего почти никто не понимает, страшно заикался, чудил (ну кто в здравом уме будет пристёгивать кружку к батарее?), совершенно не следил за внешностью (неопрятный — самая мягкая характеристика, какую ему дают современники: вечно обгрызенные ногти, мятая грязная одежда и т. п.) и крутил любовь с симпатичными юношами. Гений, что с него возьмёшь! Однако обыватель к такому Тьюрингу не готов — и в исполнении Бенедикта Камбербэтча (фильм «The Imitation Game», выходит нынче в ноябре) он уже одет в костюм с иголочки.

Увы, ту же трансформацию память производит и с великими теориями. Мы будто приспосабливаем их под себя, упрощаем, чтобы они уложились в наши мозгочки. Не избежала такого упрощения и принадлежащая Тьюрингу «игра в имитацию человека», более известная как тест, названный в его честь.

Он ещё и бегом занимался всерьёз.

Он ещё и бегом занимался всерьёз.

Что знает о тесте Тьюринга (ТТ) среднестатистический прохожий? Весьма вероятно, лишь общие положения: это проверка, способен ли компьютер выдать себя за человека. Оригинал (вот он) ощутимо сложней. Тест, предложенный Аланом в 1950-м году в работе «Вычислительные машины и разум» (научной работе, написанной для солидного журнала по философии и психологии), предполагает следующую схему: судья (из плоти и крови) общается записками с двумя испытуемыми, находящимися в соседних комнатах, причём один из них — человек, другой — машина, имитирующая человека. Впоследствии Тьюринг предложил ещё несколько вариантов теста, но вот этот ключевой пункт — двое испытуемых, один из которых живой — присутствовал почти везде (почему это важно, станет понятно далее). Если судья ошибается насчёт машины в «значительном» количестве случаев, можно считать тест пройденным: машина удовлетворительно имитирует человеческое существо — а значит, может называться разумной.

Конкурсов по прохождению ТТ устраивается множество, от эпизодических до регулярных. Среди всех выделяется «Премия Лёбнера» (Loebner Prize), проводимая с начала 90-х годов церемония, считающаяся своего рода главной из-за строгих правил, долгой истории и денежных призов. Но больше всего шуму наделало небольшое состязание Turing Test 2014, организованное нынче летом в британском Университете Рединга — где первое место занял чат-бот «Евгений Густман», созданный российско-украинской командой. Организаторы уверяют: тест Тьюринга, наконец и впервые, пройден! Да вот только пройден ли?

Прежде чем двинуться дальше, давайте отметим одну вещь. ТТ более не предмет обсуждения узкого круга специалистов. Тьюринг придумал свой тест в эпоху, когда смысл термина «компьютер» приходилось объяснять даже в научной статье. Нынче эти самые компьютеры низведены до статуса утюга, и о Тесте слышала, как говорится, каждая собака. Сверхсветовые скорости, жизнь после смерти, прохождение ТТ — всё это для обывателя темы одного порядка, информационный фастфуд, который глотается на ходу, без осмысления. Публике нужны сенсации и не нужны детали.

Алан Тьюринг в исполнении Бенедикта Камбербэтча.

Алан Тьюринг в исполнении Бенедикта Камбербэтча.

А теперь откроем пресс-релиз, опубликованный Университетом Рединга. Я выбрал ключевые куски (не дословно, но фактически точно). Историческое событие! Если компьютер… будет принят за человека… более чем в 30%… пятиминутных диалогов, его нужно считать прошедшим тест. Суперкомпьютер Густмана сочли живым 33% судей. Никто ранее этого не достигал.

Но откуда взялась цифра 30%? Откуда пять минут на интервью? Тьюринг строго не определял ни количественного порога прохождения теста, ни тем более времени, требуемого на проверку. Лишь рассуждая о возможностях компьютеров будущего (параграф 6 в работе 1950 года), он выразил мнение, что, общаясь с такими машинами, судьи будут не в состоянии поставить точный диагноз более чем в 70% случаев после пяти минут. Какой ещё суперкомпьютер, когда речь идёт всего лишь о чат-боте (словечко «суперкомпьютер» позже было из пресс-релиза изъято)? Почему не упомянуты конкуренты, демонстрировавшие ранее (в других ТТ-состязаниях) намного лучшие результаты? Почему, наконец, это историческое событие — а подано оно и названо именно так — не было перепроверено независимыми исследователями, как всегда проверяют любой новый научный факт?

Критики считают, что объясняются странности просто: вся затея Test Turing 2014 сводилась к тому, чтобы сразу же выдать мировую сенсацию. «Густман» участвует в ТТ-конкурсах не первый раз и уже пробивался в топ, в частности на Премии Лёбнера. Так что это был готовый претендент на победу. А соучредителем состязания, которого благодарили и авторы «Густмана», являлся Кевин Уорвик — экстравагантный профессор, болеющий темой сосуществования человека и машины (вы должны помнить его по опасному эксперименту 2002 года: он вживил в свою руку матрицу электродов), но сильно растерявший свой авторитет за последние годы (общественный резонанс для него явно важнее научной истины).

Тьюринг-тату

Что ж, сенсация удалась. Но сколько в ней правды? «Густман» не был ни первым, ни лучшим. Вот Cleverbot — три года назад на технофестивале Techniche убедивший 59% судей. Вот PARRY 1972 года (!), обманувший 52% профессиональных психиатров. Опыт с PARRY, правда, был не совсем чистым, ибо он «косил» под больного шизофренией, а суждение выносилось на основании записи уже состоявшейся беседы. Но ведь и «Густман» изображает из себя подростка, сразу ограничивая спектр тем и ожидаемый уровень владения языком. Тьюринг в своё время настаивал на неограниченном диалоге.

Откровенно говоря, нам, айтишникам (обыватель-то, понятное дело, неизлечим), вообще пора переключиться с ТТ на более полезные вещи. Для самого Алана игра в имитацию была интригующей забавой для ума: проверить её было не на чем, тем и интересна. Для нас, повидавших чат-боты сотнями (начиная с ELIZA, написанного в 60-х, и заканчивая Mitsuku, прошлогодним призёром «Премии Лёбнера»; кстати, пообщайтесь с ним пять минут: чудовищно, что подобные программы вообще способны кого-то обмануть!), уже очевидно, что имитация разума и разум — разные вещи. Между искусственным интеллектом и умением поддержать беседу лежит непреодолимая пропасть. И специалисты по всамделишному ИИ (Марвин Мински, например) давно на этом настаивают — хоть, возможно, они и не лучшие, кого стоит слушать в такой ситуации.

Виноват во всей этой околонаучной сенсационной суете, как ни странно, сам Алан. Тем, что не установил чётких правил своего теста. Теперь мы обречены слышать об очередной «разумной машине» каждый раз, когда кто-нибудь наберёт при прохождении теста на несколько процентов больше предшественников или схитрит, исказив весьма вольно сформулированные правила к собственной выгоде.

Надежд на избавление от этого кошмара две. Первая — на день, когда машина, проверяемая в паре с человеком-соперником, будет набирать больше баллов, чем человек: пока что Homo sapiens отвечает на вопросы слегка убедительнее. Вторая — на день, когда машина сможет убедить 100% судей. Только после этого все успокоятся и можно будет со спокойной совестью утверждать: имитация человека — ещё не человек!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *