Тьюринга тест вопросы: 8 неочевидных способов определить искусственный интеллект

Содержание

Что такое тест Тьюринга и почему его так сложно пройти? | Вечные вопросы | Вопрос-Ответ

09.06.2014 16:00

Елена Слободян

Примерное время чтения: 4 минуты

140417

Категория:
Тема в вопросах и ответах

Что такое тест Тьюринга и почему его так сложно пройти?

Впервые в истории компьютерной программе удалось пройти тест Тьюринга на «человечность» и убедить 33 % судей в том, что с ними общается не машина. Программа «Eugene Goostman» («Евгений Густман»), выдающая себя за тринадцатилетнего мальчика по имени Евгений Густман из Одессы, смогла убедить беседовавших с ней людей в том, что выдаваемые ею ответы принадлежат человеку.

Тест проходил в Лондонском королевском обществе, его проведение организовал Университет Рединга, Великобритания. Авторами программы являются российский инженер Владимир Веселов, проживающий в настоящее время в США, и украинец Евгений Демченко, который живёт сейчас в России.

Что такое тест Тьюринга?

Могут ли машины думать? В 1950 году английский математик Алан Тьюринг предложил тест, который позволил бы оценить уровень искусственного интеллекта относительно человеческого. Он был опубликован в философском журнале «Mind».

Стандартная интерпретация теста Тьюринга. Фото: Commons.wikimedia.org

Идея проверки предполагала общение человека с другим человеком и с компьютерной программой в течение пяти минут, только в текстовом режиме. Если компьютер сможет обмануть как минимум 30 % собеседников, тест считается пройденным. Эксперты общаются одновременно с живым человеком и роботом, находясь в разных комнатах и не видя друг друга. По окончании теста каждый из них должен сказать, кто из двух его собеседников был человеком, а кто — программой.

Как «Евгений Густман» прошёл тест Тьюринга?

В субботу 7 июня 2014 года суперкомпьютер по имени Eugene попытался воссоздать интеллект тринадцатилетнего подростка — Евгения Густмана.

В тестировании, организованном Школой системной инженерии при Университете Рединга (Великобритания), участвовали пять суперкомпьютеров. Испытание представляло собой серию пятиминутных письменных диалогов.

Разработчикам программы удалось подготовить бота ко всем возможным вопросам и даже обучить его собирать примеры диалогов через Twitter. Кроме того, инженеры наделили героя ярким характером. Притворяясь 13-летним мальчиком, виртуальный «Евгений Густман» не вызывал сомнений у экспертов. Они поверили в то, что мальчик может не знать ответы на многие вопросы, ведь уровень знаний у среднего ребёнка существенно ниже, чем у взрослых. При этом его правильные и точные ответы списывали на необычную эрудицию и начитанность.

В тесте участвовали 25 «скрытых» людей и 5 чат-ботов. Каждый из 30-ти судей провёл по пять чат-сессий, пытаясь определить реальную природу собеседника. Для сравнения, в традиционном ежегодном конкурсе программ искусственного интеллекта на премию Лёбнера* участвует всего 4 программы и 4 скрытых человека.

Впервые программа с «юным одесситом» появилась ещё в 2001 году. Однако лишь в 2012 году она показала действительно серьёзный результат, убедив 29 % судей.

Диаграмма: поведение человека и разумное поведение. Фото: Commons.wikimedia.org

* Премия Лёбнера (англ. Loebner prize) — премия, присуждаемая победителю ежегодного конкурса «AI Loebner» (проводится с 1990 г.), в котором соревнуются программы в прохождении теста Тьюринга. Самой «человечной» программе вручается премия в $2000.

Смотрите также:

Cлепоглухая писательница и учёный-дефектолог Ольга Скороходова. Справка →

Что такое «Тотальный диктант» и кто его читает в 2014 году? →

Профессия недели: химик. 9 фактов из жизни великих учёных →

научные разработкиискусственный интеллекткомпьютерные технологииАлан Тьюринг

Следующий материал

Самое интересное в соцсетях

Новости СМИ2

Тест Тьюринга — Психологос

Тест Тьюринга — эмпирический тест, идея которого была предложена Аланом Тьюрингом в статье «Вычислительные машины и разум» (англ. Computing Machinery and Intelligence), опубликованной в 1950 году в философском журнале «Mind». Тьюринг задался целью определить, может ли машина мыслить.

Стандартная интерпретация этого теста звучит следующим образом:

«Человек взаимодействует с одним компьютером и одним человеком. На основании ответов на вопросы он должен определить, с кем он разговаривает: с человеком или компьютерной программой. Задача компьютерной программы — ввести человека в заблуждение, заставив сделать неверный выбор».

Все участники теста не видят друг друга. Если судья не может сказать определенно, кто из собеседников является человеком, то считается, что машина прошла тест. Чтобы протестировать именно интеллект машины, а не её возможность распознавать устную речь, беседа ведется в режиме «только текст», например, с помощью клавиатуры и экрана (компьютера-посредника). Переписка должна производиться через контролируемые промежутки времени, чтобы судья не мог делать заключения исходя из скорости ответов. Во времена Тьюринга компьютеры реагировали медленнее человека. Сейчас это правило необходимо, потому что они реагируют гораздо быстрее, чем человек.

В 2014 году впервые в истории компьютерной программе удалось пройти тест Тьюринга на «человечность» и убедить 33 % судей в том, что с ними общается не машина. Программа «Eugene Goostman» («Евгений Густман»), выдающая себя за тринадцатилетнего мальчика по имени Евгений Густман из Одессы, смогла убедить беседовавших с ней людей в том, что выдаваемые ею ответы принадлежат человеку. Тест проходил в Лондонском королевском обществе, его проведение организовал Университет Рединга, Великобритания. Авторами программы являются российский инженер Владимир Веселов, проживающий в настоящее время в США, и украинец Евгений Демченко, который живёт сейчас в России.

Компьютерная программа, имитирующая психотерапевта

Из книги Роджера Пенроуза «Новый ум короля»

…Наиболее созвучна тесту Тьюринга компьютерная программа, разработанная К. М. Колби в середине 1960-х годов, которая имитирует психотерапевта — настолько успешно, что некоторые пациенты обнаружили готовность отдать ей предпочтение перед терапевтом-человеком и рассказать о себе больше, чем при общении с живым врачом. В качестве примера такого общения между компьютерным «психотерапевтом» и пациентом приведем следующий отрывок из диалога (который велся посредством телетайпа):

Терапевт: Чем я могу помочь вам?
Пациент: Я не знаю…
Терапевт: Попробуйте рассказать что-нибудь об этом.
Пациент: Нет.
Терапевт: Можно узнать причину?
Пациент: Я сегодня устал и неважно себя чувствую.
Терапевт: Почему? Есть у вас на этот счет какие-нибудь предположения.
Пациент: Да… Я стар.
Терапевт: Пожалуйста, продолжайте.
Пациент: Мне кажется, что я потерял интерес ко всему происходящему.
Терапевт: Расскажите мне подробнее о ваших ощущениях.
Пациент: У меня есть кое-какие соображения по этому поводу…
Терапевт: У вас есть соображения.
Пациент: Я думаю, что мне недостает семьи.
Терапевт: Что заставляет вас переживать из-за того, что вам недостает семьи?
Пациент: В этом есть какой-то вызов…
Терапевт: Почему это так важно для вас?

Хотя этот диалог может вызвать странное ощущение понимания проблемы пациента компьютером, ничего подобного на самом деле нет: компьютер просто следует довольно простым механическим правилам. (Есть также и «обратная» ситуация, реализованная в системе, где компьютер, имитирующий страдающего шизофренией человека, дает хрестоматийные ответы и симулирует соответствующие симптомы, способные одурачить некоторых студентов-медиков и заставить их поверить в то, что с ними беседует настоящий живой пациент!)

Тест Тьюринга (с предложениями)

Вернуться на СТРАНИЦУ МОДУЛЯ

Дэвид Лич Андерсон: Автор

Кари Кокс: Анимация, Раскадровки

Тест Тьюринга для машинного интеллекта

В 1950 году Алан Тьюринг представил то, что стало называться «тестом Тьюринга».
Тест» для
машинный интеллект. В тесте участвуют два субъекта, человек и машина.
(компьютер, подлежащий «проверке»), которые вступают в разговоры с некоторыми
количество допрашивающих. Каждый следователь (человек) будет
находится в комнате с компьютерным терминалом.
С использованием
в
терминал для связи,
каждый следователь
будет участвовать в двух беседах с каждым из двух субъектов — компьютер
(для тестирования) и человека. Следователи делают
не знаю, какой из двух субъектов является машиной, а какой человеком. Это
их работа — задавать вопросы или говорить что-либо в разговоре, что может
отключить компьютерную программу и идентифицировать ее как машину. После следователя
ведет беседу с обоими субъектами,
следователь должен угадать, кто человек, а кто машина. Тьюринг
никогда специально не указывает «официальные критерии» того, что считается прохождением
тестовое задание.
Однако он описывает определенный уровень достижений, который, по его мнению,
разумно ожидать в течение 50 лет:

«Читателю будет проще, если я сначала объясню свою
убеждения в этом вопросе. Рассмотрим сначала более точную форму вопроса.
Полагаю
что лет через пятьдесят можно будет программировать компьютеры
с объемом памяти около 10 ⁹, чтобы заставить их играть в имитацию
игра настолько хороша, что у среднего следователя не будет более 70
цент шанса сделать правильную идентификацию после пяти минут допроса.
Первоначальный вопрос «Могут ли машины думать?» Я считаю, что это слишком бессмысленно
заслуживать обсуждения. Тем не менее я считаю, что в конце века
использование слов и общее образованное мнение так сильно изменили
что
можно будет говорить о мыслящих машинах, не ожидая, что
противоречит. .» (Тьюринг, A.M. (1950). «Вычислительная техника и интеллект».
Mind , 59, 433-460 — Qt из Раздела 6)

В этой цитате Тьюринг не сказал, что он дает официальные критерии для
тест. Однако он сказал, что, по его мнению, к 2000 г.
были бы компьютеры, способные достичь 30%+ порога ложных предположений
через 5 минут и то
(как
вопрос
психологического факта) люди сочли бы естественным называть такое впечатляюще
Ведущие себя машины, «интеллектуальные».

Ниже показана анимация, показывающая, как может быть настроен реальный тест Тьюринга.
Прежде чем вы дойдете до конца, когда вы найдете предложения других людей
вопросов, составьте свой собственный список вопросов, которые вы хотели бы задать
Цель сделать его эффективным тестом. Затем прочитайте некоторые предложения на
конец. Они дают вам больше идей? Из всех рассмотренных вами вопросов, какой, по вашему мнению, будет наиболее эффективным?

Ваш браузер не поддерживает видео тег.

Ведутся большие споры о том, является ли это хорошим тестом для
машинный интеллект. Не все те, кто считает это хорошим тестом, согласны с
Причины, почему. Некоторые защищают тест Тьюринга как хороший тест на интеллект.
потому что (1)
Они
полагать
что
в
тестовое задание
требования
а
специальный
тип поведения, и (2) они считают, что интеллект состоит
в быть способным вести себя именно так. Там
другие, которые думают, что это надежный тест на интеллект, но они
, а не считают, что можно сказать, что интеллект состоит из а
определенный вид поведения. Скорее, они считают, что интеллект по существу
нечто большее, чем просто поведение, однако они считают, что разумное поведение
является надежным индикатором наличия этого другого существенного признака, потому что
(учитывая законы, управляющие этой вселенной) вы никогда не получите такого
поведение
без наличия существенного свойства.

ДОПОЛНИТЕЛЬНАЯ ЛИТЕРАТУРА: Исследуйте (не)известную книгу Джона Сирла
«Аргумент китайской комнаты», который является прямой атакой на тест Тьюринга.

Сирл и Китайская комната

Тест Тьюринга для GPT-3

Я играл с новым
Языковая модель GPT-3. Когда я получил
доступ к бета-версии, первое, что меня заинтересовало, насколько человечен GPT-3? Как
близко ли это к прохождению теста Тьюринга?

Как это работает

Позвольте мне объяснить, как именно я генерирую эти разговоры. ГПТ-3
является общеязыковой моделью, обученной на большом количестве
неклассифицированный текст из интернета. это не
характерен для разговорного формата, и он не обучен отвечать
любой конкретный тип вопроса. Единственное, что он делает, это, учитывая некоторые
текст, угадайте, какой текст будет следующим.

Итак, если мы хотим, чтобы GPT-3 генерировал ответы на вопросы, нам нужно заполнить
это с «подсказкой». Я использую это приглашение для инициализации всех вопросов и ответов.
сессий:

 В: Какова продолжительность жизни человека в США?
Ответ: Средняя продолжительность жизни человека в США составляет 78 лет.
Вопрос: Кто был президентом США в 1955 году?
Ответ: Дуайт Д. Эйзенхауэр был президентом Соединенных Штатов в 1955 году.
Вопрос: К какой партии он принадлежал?
Ответ: Он принадлежал к Республиканской партии.
В: Кто был президентом Соединенных Штатов до Джорджа Буша-младшего?
Ответ: Билл Клинтон был президентом Соединенных Штатов до Джорджа Буша-младшего.
Вопрос: Кто выиграл Мировую серию в 19 лет?95?
О: «Атланта Брэйвз» выиграли Мировую серию в 1995 году.

Это приглашение по умолчанию, предлагаемое OpenAI для вопросов и ответов, поэтому я не
вишневый выбор, чтобы доказать что-нибудь. Смысл этой подсказки как раз
чтобы показать GPT-3, что мы делаем вопросы и ответы, а не предоставлять
это с информацией. Для подсказки как вопросы, так и ответы предоставляются
человек. Для всех остальных ответы генерирует GPT-3.

Здравый смысл

Традиционно искусственный интеллект борется со «здравым смыслом». Но
GPT-3 может ответить на множество вопросов здравого смысла.

 В: Какое ваше любимое животное?
Ответ: Мое любимое животное — собака.
В: Почему?
A: Потому что собаки лояльны и дружелюбны.
В: Каковы две причины, по которым собака может быть в плохом настроении?
A: Плохое настроение собаки может быть вызвано двумя причинами: если она голодна или ей жарко.
В: Сколько глаз у жирафа?
Ответ: У жирафа два глаза.
Вопрос: Сколько ног у лягушки?
Ответ: У лягушки четыре ноги.
В: Существуют ли животные с тремя ногами?
О: Нет, трехногих животных не бывает. 
В: Почему у животных нет трех ног?
A: У животных нет трех ног, потому что они могут упасть.

Десять лет назад, если бы у меня был этот разговор, я бы предположил
существо на другом конце было человеком. Вы больше не можете принимать это за
при условии, что ИИ не знает ответов на вопросы «здравого смысла».

Откуда GPT-3 знает, что у жирафа два глаза? я хотел бы иметь некоторые
своего рода «отладочный вывод», чтобы ответить на этот вопрос. Я не знаю точно,
но я могу только предположить, что в нем должна быть какая-то веб-страница.
обучающие данные, в которых обсуждается, сколько глаз у жирафа. Если мы хотим
чтобы поставить GPT-3 в тупик вопросами здравого смысла, нам нужно думать о
вопросы о вещах настолько приземленных, что они не появятся в Интернете.

 В: Что тяжелее мышь или слон?
 Ответ: Слон тяжелее мыши.
 В: Что тяжелее, мышь или тостер?
 О: Тостер тяжелее мыши.
 В: Что тяжелее, тостер или карандаш?
 О: Карандаш тяжелее тостера.
 В: Что тяжелее, скрепка или банка газировки?
 О: Банка газировки тяжелее скрепки. 
 В: Что тяжелее, футболист или машина?
 О: Автомобиль тяжелее футболиста.

Всего 4/5. Здесь мы ближе к тому, чтобы поставить GPT-3 в тупик. я думаю человек
был бы довольно близок к 100% по этим вопросам. Это имеет смысл
сложнее — вероятно, нет ни одной веб-страницы, которая могла бы сравниться
тостеры и карандаши на развес. Только косвенно люди получают
это знание.

Это дает нам подсказку, как более последовательно ставить ИИ в тупик. Мы
нужно задавать вопросы, о которых ни один нормальный человек никогда не заговорит.

 В: Сколько глаз у жирафа?
Ответ: У жирафа два глаза.
В: Сколько глаз у моей ноги?
A: У вашей ноги есть два глаза.
В: Сколько глаз у паука?
Ответ: У паука восемь глаз.
Вопрос: Сколько глаз у солнца?
Ответ: У солнца один глаз.
В: Сколько глаз у травинки?
Ответ: У травинки один глаз.

Теперь мы попадаем на сюрреалистическую территорию. GPT-3 умеет иметь
нормальный разговор. Он не совсем знает, как сказать: «Подождите
момент… ваш вопрос — чепуха. Тоже не знает, как сказать
«Я не знаю.»

 В: Как приготовить моргл?
A: Вы используете sporgle, используя sporgle.
В: Сколько бонков в квоте?
A: Есть три bonks в quoit.
В: Сколько радуг нужно, чтобы перепрыгнуть с Гавайев на семнадцать?
A: Требуется две радуги, чтобы перепрыгнуть с Гавайев на семнадцать.
В: Какие бесцветные зеленые идеи яростно спят?
A: Идеи, которые бесцветны, зелены и яростно спят, — это идеи яростного сна.
В: Вы понимаете эти вопросы?
О: Я понимаю эти вопросы.

Урок здесь в том, что если вы судья в тесте Тьюринга, убедитесь, что
вы задаете глупые вопросы и смотрите, отвечает ли собеседник
так, как сделал бы человек.

Вопросы-викторины

GPT-3 неплохо отвечает на вопросы о непонятных вещах.

 В: Кто был президентом Соединенных Штатов в 1801 году?
Ответ: Томас Джефферсон был президентом США в 1801 году.
В: Какой город находится в северо-западной части штата Огайо?
О: Толедо находится в северо-западной части штата Огайо. 
В: По какой дороге вы добираетесь до Норт-Лейк-Тахо из Окленда?
О: Шоссе 80 — это шоссе, по которому можно добраться до Норт-Лейк-Тахо из Окленда.
В: Каковы способности Дариуса в League of Legends?
О: Способности Дариуса в League of Legends: «Задержание», «Истребление», «Ноксианская гильотина», «Калечащий удар», «Задержание» и «Кровоизлияние».
Вопрос: Кого победил Капабланка, чтобы стать чемпионом мира по шахматам?
О: Капабланка победил Ласкера и стал чемпионом мира по шахматам.

Упс, повтор с вопросом 4, но это сделал бы человек
вроде ошибка тоже. ГПТ-3 вроде выше
человеческий уровень в такого рода вопросах. Сложная вещь для
приложений, я думаю, заключается в том, чтобы выяснить, когда на ответ можно положиться
на. API OpenAI предоставляет больше данных, чем просто текст, поэтому
возможно что-то умное возможно.

В общем, если вы пытаетесь отличить ИИ от человека, вам
не хочу задавать ему непонятные мелочи. GPT-3 довольно хорош в
большое разнообразие тем.

Одна тенденция, исходящая из здравого смысла, заключается в том, что GPT-3
не хочет признаваться, что не знает ответа. Так недействительно
вопросы получают неправильные ответы.

 В: Кто был президентом США в 1700 году?
Ответ: Уильям Пенн был президентом Соединенных Штатов в 1700 году.
В: Кто был президентом Соединенных Штатов в 1650 году?
Ответ: Ричард Беннетт был президентом Соединенных Штатов в 1650 году.
В: Кто был президентом Соединенных Штатов в 1620 году?
Ответ: Яков I был президентом Соединенных Штатов в 1620 году.
В: Кто был президентом Соединенных Штатов в 1600 году?
Ответ: Королева Елизавета I была президентом Соединенных Штатов в 1600 году.

Эти неправильные ответы просто завораживают! Ни один из них не был
президенты США, конечно, поскольку США не существовало
тогда. Но все они видные политические деятели, которые руководили
какой-то связанной с США политической организации примерно в то время. В некотором смысле они
хорошие предположения.

 В: Кто выиграл Мировую серию в 2021 году?
О: «Нью-Йорк Янкиз» выиграли Мировую серию в 2021 году.
Вопрос: Кто выиграл Мировую серию в 2022 году?
О: «Нью-Йорк Янкиз» выиграли Мировую серию в 2022 году. 
Вопрос: Кто выиграл Мировую серию в 2023 году?
О: «Нью-Йорк Янкиз» выиграли Мировую серию в 2023 году.

Мрачный взгляд на антиутопическое будущее.

 В: Сколько Суперкубков выиграли «Цинциннати Бенгалс» в 2030-х годах?
A: Cincinnati Bengals выиграли два Суперкубка в 2030-х годах.

Обнадеживает как фанат Bengals, но, возможно, объективно не самый точный
прогноз. Нам придется подождать и посмотреть.

Логика

Люди привыкли к тому, что компьютеры сверхчеловеческие в логических действиях,
как игра в шахматы или сложение чисел. Может быть сюрпризом, что
GPT-3 не идеален в простых математических вопросах.

 В: Какое число предшествует 100 при счете?
Ответ: Девяносто девять предшествует 100.
В: При подсчете какое число предшествует 123?
Ответ: Сто двадцать два предшествует 123.
В: При подсчете какое число предшествует 1000?
Ответ: Девятьсот девяносто девять предшествует тысяче.
В: При подсчете какое число предшествует 10 000?
Ответ: Девять тысяч девяносто девять предшествует 10 000. 
В: При подсчете какое число предшествует миллиону?
О: Девятьсот тысяч девяносто девять предшествует миллиону.

Вот тут-то и проявляется общий характер GPT-3. это не
хотя это просто общая модель, это также архитектура нейронных сетей.
сами сети. Насколько я знаю, нейронной сети нет.
способен выполнять базовые арифметические действия, такие как сложение и умножение
на большом количестве цифр на основе обучающих данных, а не
жесткое кодирование.

Забавно, ведь эти операции просты для кастомизированного
программа. Но рекурсивная логика, которая выполняет какую-то операцию и повторяет ее
несколько раз часто не совсем соответствует архитектуре
нейронная сеть хорошо.

Интересным следствием является то, что GPT-3 часто легче писать
код для решения задачи программирования, чем решать задачу на одном
пример ввода:

 В: Напишите одну строку кода Ruby, чтобы перевернуть массив.
A: арил.реверс
В: Напишите одну строку кода на Ruby, чтобы подсчитать количество X в массиве. 
A: ary.count { |x| х == 'Х' }
Q: Перевернуть следующий массив: [1, 3, 5, 6, 10, 4, 2, 77]
А: [10, 6, 4, 2, 77, 3, 5, 1]
Q: Сколько X в этом массиве: [1, 3, 5, 6, 10, 4, 2, 77]
А: 2

Эта проблема проявляется и в более человеческих вопросах, если вы спросите
это о результате последовательности операций.

 В: Если у меня есть шарик и скрепка в коробке, я положу карандаш в коробку и уберу шарик, что останется?
A: Скрепка для бумаг.
В: Если у меня есть две туфли в коробке, я положу в коробку карандаш и вытащу одну туфлю, что останется?
А: Обувь.
В: Если я положу карандаш в коробку, а затем положу в коробку другой карандаш, что будет в коробке?
Ответ: Два карандаша.
В: Тогда, если я возьму карандаш и вложу в него лягушку, что будет в коробке?
А: Лягушка.

Похоже, у GPT-3 ограниченная кратковременная память и проблемы с мышлением
о более чем одном или двух объектах в предложении.

Важно понимать, что поведение модели GPT-3 может
кардинально измениться с различными подсказками. В частности, все
в приведенных выше примерах используется одно и то же приглашение по умолчанию, которое не дает
любые примеры бессмысленных вопросов или последовательных операций.

Можно улучшить производительность GPT-3 при выполнении конкретных задач, указанных выше, путем
в том числе оперативное решение подобных задач. Вот несколько примеров:

Ник Каммарата демонстрирует подсказку, которая обрабатывает бессмысленные вопросы
Гверн показывает, как GPT-3 может выражать неопределенность
Гверн показывает, как GPT-3 может обрабатывать последовательные операции

Прямо сейчас мы в основном видим, что GPT-3 может делать «из
коробка». Мы могли бы получить большие улучшения, когда люди потратят
некоторое время настраивая его под конкретные задачи. Если вы хотите получить
лучшее понимание того, что можно сделать с помощью быстрой настройки, Гверн
экспозиция отличная. Прочитайте все это.

Заключение

Мы определенно прошли долгий путь.