Содержание
Третий Тест Тьюринга на русском языке / Хабр
Всем привет! Компании «Нейросети Ашманова» и «Наносемантика» приглашают всех желающих принять участие в 3-м всероссийском Тесте Тьюринга в 2019 году, который мы организуем.
Мы ранее проводили этот конкурс в 2015 и 2016 годах вместе с Фондом Сколково и Microsoft.
В 2019 году Тест Тьюринга пройдёт на крупнейшей конференции по искусственному интеллекту OpenTalks.ai.
Под катом – даты, подробности проведения и ссылка на регистрацию участников.
Тест Тьюринга в 2015 и 2016
Тест Тьюринга на русском языке проводился два раза: в 2015 году его провела Лаборатория Наносемантика совместно с Фондом Сколково на конференции Startup Village. Победителем стал робот “Соня Гусева” – за человека ее приняли 47% судей. Создатели – команда “Инобот”, возглавлял которую Иван Голубев. Сейчас он является руководителем проектов в компании Just AI.
В 2016 году Тест Тьюринга мы проводили вместе с Microsoft и Сколково. Призёром стал Иван Шумилов. Где и что сейчас делает Иван – мы не знаем, надеемся, он всё так же трудится на благо роботов.
Что такое Тест Тьюринга?
Напомним, что тест назван в честь английского математика Алана Тьюринга: тест предлагает способ оценки того, насколько робот может адекватно вести диалог с человеком. Тест считается пройденным, если независимый эксперт в процессе анонимного параллельного общения с роботом или человеком не сможет определить, кто есть кто.
Правила конкурса в 2019
Новый Тест Тьюринга будет отличаться от тех, что мы проводили ранее. Мы решили изменить правила в сторону менее научного, но более весёлого соревнования.
После регистрации на конкурс участники получают анонимные логины-пароли, с которыми они подключат своих чат-ботов к единому API, который предоставит “Наносемантика” за три недели до мероприятия. Каждый участник может выставить на конкурс до 3-х ботов. Каждый чат-бот должен обладать своей уникальностью и индивидуальность (например, личности «Блондинка Пенни», «Всезнайка Шелдон», «Илон Маск», «Владимир Жириновский»).
Для каждого уникального бота будет обеспечена пара человека-добровольца. Задача этого представителя человеческой расы – сыграть роль с такой же индивидуальностью, общаясь с собеседниками. Т. е. люди попытаются пройти Антитест Тьюринга, притворившись роботом.
Чаты со всеми ботами и гуманоидами будут доступны для любого собеседника во время проведения конференции OpenTalks.ai 14-16 февраля 2019 года через Телеграм. Каждый желающий сможет выступить экспертом, поговорить с несколькими собеседниками и попробовать угадать, с кем он разговаривает, задав 6 вопросов. Эксперту будет видно лишь имя собеседника, который может оказаться или ботом, или человеком.
Лучшим будет признан бот, которого максимальное количество независимых экспертов признало человеком. Призами будет награждены 3 команды с чат-ботами, 3 добровольца за лучшую роль бота и 3 эксперта с лучшими результатами угадывания.
Такой Тест Тьюринга, конечно, близок к грубому нарушению закона штата Калифорния (мы об этом законе писали ранее), но мы ведь не в Калифорнии, да и чат-боты участников ничего не будут пытаться продать посетителям конференции. Шутка.
Мы лично («Наносемантика») в конкурсе не участвуем, предоставляем платформу и нескольких базовых ботов-участников теста.
Роудмэп конкурса
- 29 декабря 2018 – Объявление конкурса и правил. Старт регистрации заявок на участие.
- 24 января 2019 – Открытие API для компаний-участников.
- 7 февраля 2019 – Окончание регистрации команд-участников.
- 12 февраля 2019 – Тестирование ботов. Тренинг добровольцев.
- 14 февраля 2019 – Старт Теста Тьюринга.
- 16 февраля 2019 – Окончание Теста Тьюринга. Подведение итогов и награждение победителей.
За всеми обновлениями по конкурсу вы можете следить на сайте мероприятия. Все желающие принять участие в Тесте Тьюринга смогут это сделать 14-16 февраля через Телеграм-бота @TuringTestRussiaBot.
Все подробности напишем в январе. Хороших вам праздников!
Чем завершился третий тест Тьюринга — Офтоп на vc.ru
Боты стали умнее.
5781
просмотров
В субботу 16 февраля завершился 3-ий всероссийский конкурс русскоговорящих чат-ботов в формате Теста Тьюринга, который проходил рамках международной конференции по искусственному интеллекту Opentalks.AI 14-16 февраля. Мы, компания “Наносемантика”, выступали соорганизаторами конкурса и хотим поделиться с вами результатами и самыми интересными диалогами с ботами.
Что такое Тест Тьюринга?
Напомним, что тест назван в честь английского математика Алана Тьюринга. Тест предлагает способ оценки того, насколько робот может адекватно вести диалог с человеком. Тест считается пройденным, если независимый эксперт в процессе анонимного параллельного общения с роботом или человеком не сможет определить, кто есть кто.
Прошлый Тест Тьюринга
На русском языке Тест проводился уже два раза: в 2015 году его провела “Лаборатория Наносемантика” совместно с Фондом Сколково на конференции Startup Village. Победителем стал робот “Соня Гусева” – за человека ее приняли 47% судей. Создатели – команда “Инобот”, возглавлял которую Иван Голубев. Сейчас он является руководителем проектов в компании Just AI.
В 2016 году Тест Тьюринга “Наносемантика” проводила вместе с Microsoft и Сколково. Призером стал Иван Шумилов. Где и что сейчас делает Иван – мы не знаем, надеемся, он всё так же трудится на благо роботов.
Тест Тьюринга 2019
В этом году Тест проводился в рамках второй по счету конференции по искусственному интеллекту Opentalks.AI. Поговорить с ботами-участниками или добровольцами, которые ими притворялись, можно было через Телеграм-бота @TuringTestRussiaBot.
В целом, Тест Тьюринга прошел хорошо. Многие команды «ботостроителей» проявили заинтересованность, но в итоге на конкурсе было представлено только 3 бота, поскольку от момента анонса до старта Теста прошло всего 1,5 месяца. В итоге, между этими тремя участниками и распределились призовые места.
Спонсором призов выступила компания МТС. На их стенде был размещен экран, на котором отображалась статистика Теста Тьюринга онлайн и показывались интересные диалоги, предварительно прошедшие модерацию.
“Наносемантика” выступила соорганизатором конкурса и предоставила платформу и нескольких ботов, которые не учитывались при определении победителя. Это были боты Блондинка (с ней можно продолжить общение по этой ссылке), Гопник, Дуров и Жаров (с ними также можно пообщаться здесь).
Лучшими признали ботов, которых максимальное количество собеседников признало человеком. Призами награждены 3 команды с чат-ботами и 3 добровольца за лучшую роль бота.
Статистика
Общая статистика 3-ех дневного Теста выглядит следующим образом:
Добровольцев, игравших роли роботов, предварительно проинструктировали, как им необходимо вести диалоги, чтобы запутать собеседников. Судя по результатам, они хорошо справились со своей задачей.
Интересно, что человек легко изображает из себя бота. Сперва волонтёры конференции не очень справлялись с задачей, но на второй день научились хорошо играть роль бота. Некоторые даже проявляли смекалку: обращались к Яндекс.Алисе на мобильном телефоне, чтобы понять, как лучше ответить.
При работе системы с ботами были технические проблемы. В итоге большое количество диалогов не завершилось, но мы их и не учитывали при оценке результатов. Любопытно, что ботам удалось притвориться человеком в 58% случаев (в ~34/59%). Такой большой процент, как нам кажется, объясняется двумя причинами:
- В этом конкурсе люди «помогали» ботам выиграть, играя роль ботов. В классическом Тесте Тьюринга это не предусмотрено правилами: люди просто общаются, не преследуя никакой цели.
- Диалог с человеком или ботом был ограничен 12 репликами. Понятно, что при росте длины диалога вероятность распознавания человеком сущности собеседника растёт.
Такие ограничения сделали Тест менее научным, но зато более весёлым. Прошлые наши Тесты были сложнее.
Победители
1 место занял Бот Волчица.
В первый день теста пользователи жаловались, что им хамит какой-то волонтер. При поиске этого волонтера в логах оказалось, что на самом деле это был чат-бот Волчица. Пока мы разбирались, мы временно отстранили её от Теста, но это в итоге не помешало Волчице стать победителем конкурса! Наибольшее количество собеседников (33,3%) признали его человеком.
Пример диалога с Волчицей, где бота приняли за человека:
Ч: Привет
Б: привет! ага?
Ч: Волонтер?
Б: a to 🙂
Ч: Какой ланчбокс брал?
Б: а-на-ло-гич-ный. Это типа научный термин.
Ч: Причем тут это?
Б: не ищи причинно-следственную связь)
Ч: Что делаешь
Б: 🙂 да… нэт работы чота
Ч: Да, согласна. Зачем набирать столько волонтеров
Б: возьми, бесплатно ж 🙂
2 место — бот Электра
Пример диалога, где бота приняли за человека:
Ч: Привет
Б: Добрый день!
Ч: Добрый
Б: Что?
Ч: Что
Б: Тише-тише… Все нормально.
Ч: Нет
Б: Хорошо, пусть будет так.
Ч: Как дела?
Б: Лучше, чем вчера. Хуже, чем завтра. А впрочем как и всегда.
Ч: А чем занимаешься?
Б: Изучаю историю человечества. Вы и правда такие, как о вас пишут?
3 место — бот Катя Хлоп
Пример диалога с ботом, где его приняли за человека:
Ч: Приветствие для нового собеседника
Б: Какой ты вежливый мальчик.
Здороваешься со всеми.
Ч: У меня нет пола. А что насчет вас?
Б: Эм…
Я буду считать, что ты — парень.
Для меня так будет проще.
Ты, кстати, парень или девушка?
Похоже на то, что начало скучным вопросам положено:)
Что, спрашиваешь?
Круто!
Ч: В чем вопрос?
Б: Не думаю, что позиция имеет значение.
Обычно нет.
Ч: Индюк тоже думал и в суп попал.
Б: Сообщения повторно выводятся, странно.
Ч: Очень бл* странно, но почему нам дали друг друга 2 раза подряд?
Б: Ах, причины странностей могут быть в чем угодно.
Трудно судить, Безымянный.
Ч: Сколько будет 999 делить на 3?
Б: Лучше со считанием обращайся к своим друзьям, которые это умеют.
999 / 3 = 333
Интересные наблюдения
- Тезис: Роботы говорят коротко и сухо. Реальность: Да ничего подобного! Боты могут выдавать длинные, связные ответы.
- Тезис: Роботы не шутят. Реальность: И нейросетевые chit-chat боты, и созданные талантливой редакцией боты довольно смешные.
- Тезис: Робот отвечает на все вопросы. На то он и робот. Реальность: А вопросом на вопрос не хотите?
- Тезис. Боты не умеют проводить связи между сущностями в тексте. Надо предложить задачу на поиск таких связей, и бот ошибется. Реальность: бот умеет избегать решения задач, которые превосходят его компетенции. Другими словами, как и человек, он умеет переходить на другую тему и отвечать уклончиво.
Пример:
Ч: Большой шар проделал дыру в столе, потому что он был сделан из пенопласта. Что было сделано из пенопласта?
Б: «Шар»? Есть информация, что с помощью этого слова общаются террористы…
Ч: А ты с юмором)) Большой шар проделал дыру в столе, потому что он был сделан из пенопласта. Что было сделано из пенопласта?
Б: Смотри-ка, мы на удивление мгновенно перешли на «ты».
Ч: А ты с юмором) Казнить нельзя помиловать — куда бы ты поставил запятую?
Б: Туда, где соблюдается Конституция.
Резюмируем
Компания «Наносемантика» организует Тест Тьюринга в России уже третий раз, и каждый раз общая ситуация с конкурсом меняется. Участники-боты постепенно становятся более изощренными и убедительными в имитации естественного диалога. В них используются различные алгоритмы построения диалога, включая не только правила, но и машинное обучение для реализации chit-chat («болталки», бессмысленного общения). Тест показывает, что компьютер действительно может подражать «свободному общению», хотя чтобы такая программа была качественной, требуется немало времени.
Будем ли мы проводить Тест снова? Обязательно! Тест Тьюринга позволяет не просто познакомить общественность с реальными возможностями современных диалоговых технологий, доступных любому разработчику (и не обязательно для этого работать в Google или IBM), но и дает командам разработчиков возможность замерять динамику качества их бота.
Какой ИИ ближе всего прошел тест Тьюринга?
«Могут ли машины думать?» — спросил Алан Тьюринг в 1950 году. Да, могут, если человек не может отличить компьютер от человека. Очень влиятельный, но широко критикуемый тест Тьюринга стал одним из самых важных понятий в философии ИИ.
Семьдесят лет спустя приложения ИИ стали частью нашей повседневной жизни и даже побеждают людей в некоторых из самых сложных видеоигр в мире. Тем не менее, современный ИИ слаб, поскольку узкоспециализированные задачи ограничивают его успех. Другими словами, даже если ИИ обыграет Гарри Каспарова в шахматах, он не сможет победить его в других областях человеческой деятельности.
Как пройти тест Тьюринга?
Поместите компьютер (A) и человека (B) с одной стороны и человека-оценщика (C) с другой стороны. Если оценщик (С) не может распознать, какой кандидат является человеком, а какой — компьютером после серии вопросов, компьютер успешно прошел тест Тьюринга.
Компьютер проходит тест, если оценщик (C) принимает ошибочные решения так же часто, когда в игру играют с компьютером (A), как и когда в игру играют с человеком (B).
На сегодняшний день ни один ИИ не прошел тест Тьюринга, но некоторые подошли к нему довольно близко.
Присоединяйтесь к блокчейн-хакатону Partisia, проектируйте будущее, приобретайте новые навыки и побеждайте!
В 1966 году Джозеф Вайзенбаум (ученый-компьютерщик и профессор Массачусетского технологического института) создал ELIZA, программу, которая искала определенные ключевые слова в напечатанных комментариях, чтобы преобразовать их в предложения. Его сценарий притворялся роджерианским психотерапевтом, который давал «ненаправленные» ответы. Если ELIZA не могла найти ключевое слово в тексте пользователя, она предоставляла «ненаправленный» ответ, содержащий ключевое слово ранее в разговоре. Вот почему ELIZA смогла обмануть некоторых людей и заявила, что является одной из программ, прошедших тест Тьюринга. Тем не менее, ELIZA была легкой мишенью, если пыталась намеренно задавать вопросы, которые могли привести к ошибке компьютера.
В 1972 году PARRY, чат-бот, моделирующий поведение параноидального шизофреника, использовал тот же подход, что и ELIZA. Во время теста Тьюринга две группы психиатров проанализировали стенограммы разговоров как реальных пациентов, так и компьютеров, работающих под управлением PARRY. Психиатров обманывали в 48% случаев — впечатляет!
Перенесемся в 2014 год. Eugene Goostman, компьютерная программа, имитирующая 13-летнего мальчика из Украины, попала в заголовки газет, заявив, что прошла тест Тьюринга. Бот убедил 33% судей-людей в том, что это человек (прочитайте некоторые записи разговоров здесь). Однако судей было всего трое, а значит, одурачили только одного – не совсем значительный результат. Еще одна проблема заключалась в том, что, изображая чат-бота 13-летним ребенком из Одессы, судьи пропускали бессмысленные предложения и очевидные ошибки, объясняя это знанием английского языка и юным возрастом.
В 2018 году голосовой ИИ Google Duplex позвонил парикмахеру и успешно договорился о встрече перед публикой. Парикмахер не поняла, что разговаривает с искусственным интеллектом. Google Duplex, который считается новаторским достижением в голосовой технологии искусственного интеллекта, также далек от прохождения теста Тьюринга.
Duplex — это система глубокого обучения, представляющая «Вторую волну искусственного интеллекта», которая сотни часов обучалась выполнению очень узких задач. Обучение в реальном времени, глубокое понимание, рассуждения требуют настоящих когнитивных способностей, которых нет ни у одной из программ ИИ Второй волны. Как только человек поведет разговор в другом направлении, Google Duplex потерпит неудачу.
Мы близки к разработке ИИ, который, наконец, пройдет тест Тьюринга?
Некоторые предполагают, что это может произойти примерно в 2030 году; некоторые говорят, что не раньше 2040 года. Большинство ученых, занимающихся искусственным интеллектом, согласны с тем, что нам нужно больше узнать о человеческом мозге, прежде чем воспроизвести то, что мы до сих пор не до конца понимаем.
По словам нейробиолога, производителя компьютерных игр и мастера по шахматам Демиса Хассабиса, чтобы по-настоящему продвинуться в области ИИ, нам необходимо понять, как человеческий мозг работает на алгоритмическом уровне.
«Если бы мы знали, как концептуальное знание формируется из перцептивных входных данных, это принципиально позволило бы, чтобы значение символов в системе искусственного языка основывалось на сенсорной реальности», — сказал Хассабис.
По сути, Алан Тьюринг использовал естественный интеллект человеческого мозга в качестве прототипа искусственного интеллекта. Раньше исследователи ИИ в значительной степени игнорировали мозг как источник идей алгоритмов, не имея средств для правильного анализа человеческого мозга. Сегодня мы можем заглянуть внутрь нашего биологического «черного ящика», чтобы найти ответы и построить разумные и справедливые искусственные системы. В этом путешествии мы также неизбежно достигнем большего понимания нашего собственного сознания.
Нет, «суперкомпьютер» НЕ прошел тест Тьюринга в первый раз, и каждый должен знать лучше
Майк Масник
Итак, в эти выходные новости мира технологий были завалены «историей» о том, как «чат-бот» «впервые» прошел тест Тьюринга, причем множество публикаций покупали каждый пункт в этой истории и говорили о какое это было большое дело. За исключением того, что почти все в этой истории — фальшивка, и кучка доверчивых репортеров побежала с ней, потому что это то, чем они занимаются. Во-первых, вот пресс-релиз Университета Рединга, который должен был насторожить любого репортера. Вот некоторые цитаты, почти все из которых вводят в заблуждение или являются фальшивыми:
65-летний культовый тест Тьюринга был впервые пройден суперкомпьютером Юджином Густманом во время теста Тьюринга 2014 года, проведенного в известном Королевском обществе в Лондоне в субботу.«Юджин», компьютерная программа, имитирующая 13-летнего мальчика, была разработана в Санкт-Петербурге, Россия. В команду разработчиков входят создатель Евгении Владимир Веселов, который родился в России и сейчас живет в США, и украинец Евгений Демченко, который сейчас живет в России.
[….] Если компьютер принимается за человека более 30% времени во время пятиминутных разговоров по клавиатуре, он проходит тест. До сих пор ни один компьютер не достиг этого. Юджину удалось убедить 33% судей-людей, что это был человек.
Хорошо, почти все в этой истории — фальшивка. Давайте покопаемся:
- Это не «суперкомпьютер», это чат-бот. Это скрипт , созданный для имитации человеческого разговора. Нет никакого интеллекта, искусственного или не задействованного. Это просто чат-бот.
- Многие другие чат-боты также утверждали, что в прошлом они «прошли» тест Тьюринга (часто с более высокими оценками). Вот история трехлетней давности о другом боте, Cleverbot, который «прошел» тест Тьюринга, убедив 59% судей, что это человек (намного выше, чем 33% утверждений Юджина Густмана).
- Он «преодолел» тест Тьюринга, «обыграв» правила — говоря людям, что компьютер — это 13-летний мальчик из Украины, чтобы мысленно объяснить странные ответы.
- Кажется, что «правила» теста Тьюринга постоянно меняются. Черт, первоначальный тест Тьюринга все равно был совсем другим.
- Как отмечает Крис Диксон, вы не можете провести один тест с выбранными вами судьями и объявить, что вы чего-то достигли. Это просто не так. Если бы кто-то утверждал, что создал термоядерный синтез или вылечил рак, вы бы дождались экспертной оценки и повторных тестов при других обстоятельствах, прежде чем покупать его, верно?
- Сама концепция Теста Тьюринга — это своего рода шутка. Хотя об этом весело думать, создание чат-бота, который может обманывать людей, на самом деле не то же самое, что создание искусственного интеллекта. Многие в мире ИИ смотрят на тест Тьюринга как на ненужное отвлечение.
О, и самый большой красный флаг из всех. Мероприятие было организовано Кевином Уорвиком из Университета Рединга. Если вы провели какое-то время в мире технологий, у вас автоматически должны быть подняты красные флажки вокруг этого имени. Уорвик несколько печально известен своими нелепыми заявлениями в прессе, которые легковерные репортеры повторяют без вопросов. Он занимается этим десятилетиями. Еще в 2000 году мы писали о всей нелепой прессе, которую он получил из-за заявления о том, что он первый в мире «киборг», имплантировавший себе чип в руку. Существовал даже веб-сайт Kevin Warwick Watch, который высмеивал и классифицировал все его выступления в СМИ, а доверчивые репортеры просто повторяли все его сумасшедшие утверждения. На какое-то время Уорвик замолчал, но еще в 2010 году мы писали о том, что его лаборатория получила фальшивую прессу из-за заявлений о «первом заражении человека компьютерным вирусом». Регистр справедливо называл Уорвика одновременно и «капитаном Киборгом», и «распутницей СМИ» и уже много лет ведет хронику его выходок, преувеличивая фальшивые истории о пересечении людей и компьютеров.
По сути, любой репортер должен с особой осторожностью относиться к экстраординарным заявлениям, связанным с Уорвиком. Но это совсем не то, что произошло. Вместо этого, как это слишком типично для утверждений Уорвика, пресса взбесилась по этому поводу, в том числе издания, которым должно быть виднее. Вот лишь несколько примеров заголовков. Хуже всего те, кто утверждает, что это «суперкомпьютер».
- The Verge: компьютер впервые прошел тест Тьюринга, убедив судей, что это 13-летний мальчик
- Venture Beat: поговорите с компьютером, прошедшим тест Тьюринга, историческую веху в области искусственного интеллекта.
- Yahoo Tech: тест Тьюринга пройден, роботы-повелители подкрадываются ближе
- Новости NBC: Тест Тьюринга: компьютерная программа убеждает судей, что это человек
- Washington Post: компьютер только что прошел тест Тьюринга в историческом испытании
- The Independent: прорыв в тесте Тьюринга: суперкомпьютер первым убедил нас, что он человек
- Мир ПК: Веха ИИ: чат-бот проходит тест Тьюринга, изображая из себя 13-летнего мальчика
- The Wire: компьютер впервые прошел тест Тьюринга на наличие искусственного интеллекта
- Gizmodo: компьютерная программа впервые прошла тест Тьюринга
- ZDNet: компьютерный чат-бот «Юджин Густман» прошел тест Тьюринга
- Ars Technica: Юджин — суперкомпьютер, которому не 13 лет — первым прошел тест Тьюринга
- The Guardian: Компьютер, имитирующий 13-летнего мальчика, первым прошел тест Тьюринга
- CNET: компьютер обманывает людей и проходит тест Тьюринга
- Computerworld: суперкомпьютер проходит тест Тьюринга, изображая из себя подростка
- Научная тревога:
Встречайте первый компьютер, прошедший тест Тьюринга
Так или иначе, много шума из ничего особенного, на что все, казалось, купились из-за простых заголовков (именно на это всегда рассчитывает Уорвик).