Нейросеть гугл: Google представила нейросеть Imagen — она генерирует изображения по описанию в более высоком качестве, чем DALL-E 2

Содержание

Google представила нейросеть Imagen — она генерирует изображения по описанию в более высоком качестве, чем DALL-E 2 — Жизнь на DTF

Компания показала множество примеров работы алгоритмов.

44 730
просмотров

24 мая 2022 года компания Google представила собственную нейросеть, которая генерирует изображения по описанию. Её разработала команда исследовательского проекта Google Brain, которая специализируется на изучении искусственного интеллекта на основе глубокого обучения.
Нейросеть распознаёт текст с использованием больших языковых моделей, после чего генерирует на основе полученных данных первое изображение размером 64х64 пикселей. Далее диффузионные модели поэтапно повышают разрешение полотна до 256х256 и 1024х1024 точек, параллельно с этим дорисовывая детали.

В Google утверждают, что созданная компанией нейросеть генерирует изображения по описанию с «беспрецедентным фотореализмом».
Компания предложила группе тестировщиков сравнить иллюстрации, созданные при помощи Imagen, DALL-E 2 и других моделей преобразования. Эксперимент показал, что люди чаще всего отдавали предпочтение изображениям, сгенерированным нейросетью Google.

Компания предложила опробовать нейросеть в ограниченном технодемо на своём сайте. Пользователи не могут сами вводить запросы, а способны только выбирать слова из предложенных.
Когда Google предложит желающим воспользоваться Imagen, пока неясно. Проект по-прежнему находится в экспериментальной фазе.

Милый корги живёт в домике из суши

Гигантская кобра из кукурузы на ферме

В комнату проникает один луч света. Луч освещает мольберт. На мольберте стоит картина Рембрандта с изображением енота

Маленький кактус в соломенной шляпе и неоновых солнцезащитных очках в пустыне Сахара

Белоголовый орлан, сделанный из шоколадной пудры, манго и взбитых сливок

Собака с любопытством смотрит в зеркало и видит кошку

Плюшевые медведи плывут на Олимпийских играх на дистанции 400 метров баттерфляем

Фотография корги, катающегося на велосипеде по Таймс-сквер. На ней солнцезащитные очки и пляжная шляпа

Кружка-клубника, наполненная семенами белого кунжута плавает в море тёмного шоколада

Осьминог-инопланетянин проплывает через портал, читая газету

Хромированная утка с золотым клювом спорит с сердитой черепахой в лесу

Пара роботов ужинает на фоне Эйфелевой башни

Енот в шлеме космонавта смотрит в окно ночью

Сиба-ину в ковбойской шляпе и красной рубашке катается на велосипеде

Сиба-ину в солнечных очках и красной рубашке катается на скейтборде

Енот в чёрной кожаной куртке играет на гитаре на пляже

Панда в чёрной кожаной куртке и солнечных очках играет на гитаре в парке

Британская короткошерстная кошка в ковбойской шляпе катается на велосипеде

Британская короткошерстная кошка в кожаной куртке и ковбойской шляпе катается на велосипеде

Картина маслом, на которой енот в красной рубашке и ковбойской шляпе катается на скейтборде на вершине горы

Сиба-ину в кожаной куртке и шляпке катается на скейтборде

Imagen стала аналогом нейросети DALL-E 2, представленной весной 2022 года. Ранее компания OpenAI предоставила доступ к своему сервису ограниченному количеству пользователей, которые продемонстрировали возможности алгоритмов машинного обучения на многочисленных примерах.

«Это технологическое чудо»: в сети поделились изображениями, сгенерированными нейросетью DALL-E 2 по описанию

Статьи редакции

Мона Лиза распивает вино с Да Винчи, енот застрял в адронном коллайдере, а рыба-корги расслабляется в аквариуме — ИИ-алгоритмы рисуют вообще всё.

Google научила нейросеть редактировать фотографии по текстовому описанию

Исследователи из компании Google разработали нейросетевую модель Imagic, редактирующую изображения по текстовому описанию. Например, она может изменить фотографию собаки так, чтобы она не сидела, а стояла, сохранив при этом все остальные детали. Статья об алгоритме опубликована на arXiv.org.

За последние два года исследователи в области машинного обучения добились больших успехов в создании алгоритмов, которые умеют генерировать довольно реалистичные изображения (а с недавнего времени и видеоролики) по текстовому описанию. Довольно быстро эти возможности начали интегрировать в графические редакторы и даже создавать новые сервисы для дизайнеров на основе генеративных нейросетей. Например, существует плагин для Photoshop на базе нейросети Stable Diffusion, позволяющий генерировать или дорисовывать изображения.

Разработчики из Google под руководством Михаля Ирани (Michal Irani) пошли дальше и научили нейросеть редактировать изображения вообще без необходимости в ручных манипуляциях, требуя от пользователя только текстовое описание правок. Как и многие из недавних генеративных моделей, новый алгоритм создает изображения, используя дифузионный метод, при котором он на протяжении десятков стадий постепенно улучшает изображение, на котором изначально находится только шум. Подробнее о принципе работы таких генеративных моделей можно прочитать в другой нашей заметке.

Главное нововедение авторов нового алгоритма касается не самой генерации, а работы с ее «прекурсорами». Дело в том, что текст попадает на генеративную нейросеть не сразу. Перед этим текст подается на кодировщик, который преобразует его в сжатое векторное представление (эмбеддинг), кодирующее смысл так, что похожие по смыслу предложения будут иметь похожие эмбеддинги. Исследователи решили изменять не само генерируемое изображение, а работать именно с текстовыми эмбеддингами.

Схему работы алгоритма можно разбить на три стадии. Сначала пользователь дает исходное изображение и текстовое описание того, что нужно изменить, например, фотографию стоящей на газоне собаки и текст «сидящая собака». На первом этапе эта фраза превращается в эмбеддинг, а затем оптимизируется так, чтобы сгенерированное на его базе изображение было похоже на исходное. На втором этапе уже сама диффузионная генеративная нейросеть оптимизируется так, чтобы в ответ на оптимизированный эмбеддинг генерировать изображения, похожие на оригинал. А на третьем этапе происходит линейная интерполяция между исходным и оптимизированным эмбеддингами, а результат подается на оптимизированную нейросеть. Тесты показали, что такая схема позволяет менять только нужные детали на изображении, оставляя практически нетронутыми остальные.

Режим редактирования изображений по текстовому описанию доступен и в нейросети DALL-E 2 от OpenAI, о которой мы рассказывали весной, однако он требует от пользователя самостоятельно выделить нужную область, тогда как Imagic достаточно лишь текстового описания.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

инструментов – Google AI

Инструменты и ресурсы

Мы делаем инструменты и ресурсы доступными, чтобы каждый мог использовать технологии для решения проблем. Если вы только начинаете или уже являетесь экспертом, вы найдете ресурсы, необходимые для достижения следующего прорыва.

Для разработчиков

Начните работу с ИИ

Мы помогаем создавать совместную экосистему, предоставляя инструменты, упражнения и проекты с открытым исходным кодом для студентов и разработчиков во всем мире.

Ознакомьтесь с TensorFlow, нашей платформой машинного обучения с открытым исходным кодом для всех

Ознакомьтесь с TensorFlow, нашей платформой машинного обучения с открытым исходным кодом для всех но простой в использовании пакет через Firebase.

Индикаторы справедливости

Индикаторы справедливости — это инструмент, построенный на основе анализа моделей Tensorflow, который обеспечивает регулярное вычисление и визуализацию показателей справедливости для бинарной и многоклассовой классификации.

TensorFlow.js

Начните работу с нашей браузерной библиотекой Javascript для обучения и развертывания моделей машинного обучения.

CoLaboratory

Colaboratory – это исследовательский проект Google, созданный для распространения образования и исследований в области машинного обучения. Это среда ноутбука Jupyter, которая не требует настройки для использования и полностью работает в облаке.

Google с открытым исходным кодом

Google считает, что открытый исходный код хорош для всех. Будучи открытым и свободно доступным, он позволяет и поощряет сотрудничество и развитие технологий, решая проблемы реального мира.

Учитесь с Google AI

Образовательные ресурсы от экспертов по машинному обучению в Google

Для исследователей и разработчиков

Наборы данных

Мы верим в создание богатой и совместной среды для исследователей и разработчиков. Вот почему мы делимся крупномасштабными наборами данных, которые каждый может использовать для своей работы.

Изучите наборы данных Google по информационным дисциплинам

Crowdsource

Помогите расширить набор данных Open Images, играя с Crowdsource и зарабатывая забавные значки.

Поиск наборов данных

Поиск наборов данных позволяет пользователям находить наборы данных, хранящиеся в тысячах репозиториев в Интернете, что делает эти наборы данных общедоступными и полезными для всех.

Для организаций

Создавайте с нашими инструментами и услугами

Наши продукты и услуги машинного обучения разработаны таким образом, чтобы быть быстрыми, масштабируемыми и простыми в использовании, чтобы вы могли применять машинное обучение для решения любых деловых или организационных задач.

Узнайте об ускорителях машинного обучения Cloud TPU

Облачный ИИ

ИИ Google Cloud предоставляет современные услуги машинного обучения с предварительно обученными моделями и сервисом для создания ваших собственных адаптированных моделей .

Cloud AutoML

Обучение высококачественным пользовательским моделям машинного обучения с минимальными усилиями и опытом машинного обучения.

Для стартапов

Поддержка инноваций повсюду

Мы поддерживаем растущую экосистему предприятий и приложений на основе ИИ с помощью наставничества, обучения и ресурсов, чтобы помочь всем внедрять инновации и процветать.

Узнайте больше о Gradient Ventures, нашем венчурном фонде, ориентированном на ИИ, который помогает стартапам на ранних стадиях успеха

Изучите Launchpad Studio, программу ускорения разработки продуктов для компаний, занимающихся машинным обучением

Развивайте навыки машинного обучения с помощью Learn with Google AI

Независимо от того, являетесь ли вы экспертом по машинному обучению или только начинаете, вы найдете обучение и информацию в нашем ресурсном центре.

Учитесь с помощью искусственного интеллекта Google

Спросите технического специалиста: что такое нейронная сеть?

Когда-то существовал верный способ отличить людей от компьютеров: вы предъявляли фотографию четвероногого друга и спрашивали, кошка это или собака. Компьютер не мог отличить кошачьих от собачьих, но мы, люди, могли ответить с непоколебимой уверенностью.

Все изменилось около десяти лет назад благодаря прорыву в компьютерном зрении и машинном обучении, в частности, значительным достижениям в области нейронных сетей, которые могут обучать компьютеры учиться так же, как люди. Сегодня, если вы дадите компьютеру достаточно изображений кошек и собак и обозначите, что есть что, он может научиться различать их с точностью до мурлыканья.

Но как именно нейронные сети помогают компьютерам в этом? А что еще они могут или не могут сделать? Чтобы ответить на эти и другие вопросы, я встретился с Майтрой Рагху из Google Research, ученым-исследователем, который целыми днями помогает ученым-компьютерщикам лучше понять нейронные сети. Ее исследование помогло команде Google Health открыть новые способы применения глубокого обучения для помощи врачам и их пациентам.

Итак, большой вопрос: что такое нейронная сеть?

Чтобы понять нейронные сети, нам нужно сначала вернуться к основам и понять, как они вписываются в более широкую картину искусственного интеллекта (ИИ). «Представьте себе русскую матрешку, — объясняет Майтра. ИИ был бы самой большой куклой, тогда внутри него есть машинное обучение (ML), а внутри него нейронные сети (… и внутри него глубокие нейронные сети, но мы скоро доберемся до этого!).

Если вы думаете об ИИ как о науке о том, как делать вещи умными, МО — это подполе ИИ, направленное на то, чтобы сделать компьютеры умнее, обучая их учиться, а не жестко кодируя их. В рамках этого нейронные сети являются продвинутой техникой машинного обучения, когда вы учите компьютеры учиться с помощью алгоритмов, вдохновленных человеческим мозгом.

Ваш мозг запускает группы нейронов, которые взаимодействуют друг с другом. В искусственной нейронной сети (компьютерного типа) «нейрон» (который вы можете представить как вычислительную единицу) сгруппирован с кучей других «нейронов» в слой, и эти слои накладываются друг на друга. . Между каждым из этих слоев есть связи. Чем больше слоев у нейронной сети, тем она «глубже». Отсюда и идея «глубокого обучения». «Нейронные сети отличаются от нейронауки, потому что в них есть математический элемент, — объясняет Майтра. — Связи между нейронами представляют собой числовые значения, представленные матрицами, а для обучения нейронной сети используются алгоритмы на основе градиента».

Это может показаться сложным, но вы, вероятно, довольно часто взаимодействуете с нейронными сетями — например, когда просматриваете персонализированные рекомендации фильмов или общаетесь с ботом службы поддержки.

Итак, когда вы настроили нейронную сеть, готова ли она к работе?

Не совсем. Следующий шаг – обучение. Вот где модель становится намного более сложной. Подобно людям, нейронные сети учатся на обратной связи. Если вы вернетесь к примеру с кошкой и собакой, ваша нейронная сеть будет смотреть на картинки и начинать со случайных предположений. Вы должны пометить обучающие данные (например, сообщить компьютеру, изображена ли на каждой картинке кошка или собака), и эти метки обеспечат обратную связь, сообщая нейронной сети, когда это правильно или неправильно. На протяжении всего этого процесса параметры нейронной сети настраиваются, и нейронная сеть переходит от незнания к обучению тому, как идентифицировать кошек и собак.

Почему мы не используем нейронные сети постоянно?

«Хотя нейронные сети основаны на нашем мозге, способ их обучения на самом деле сильно отличается от человеческого, — говорит Майтра. «Нейронные сети обычно достаточно специализированы и узки. Это может быть полезно, потому что, например, это означает, что нейронная сеть может обрабатывать медицинские снимки намного быстрее, чем врач, или выявлять закономерности, которые обученный эксперт может даже не заметить».