ШАГИ
Как я перестал бояться и полюбил нейросеть
Нейросеть. Кажется, главный кандидат в «слово года». Про DALL-E и Midjourney знают уже в начальной школе. На обложках журналов – сгенерированные нейросетями картинки. В топе новостей что ни день – то «нейросеть нарисовала», «нейросеть написала», «нейросеть придумала». И даже российский «Яндекс», впрыгивая уже в предпоследние вагоны уходящего поезда имени хайпа, представил накануне прототип своей нейросети – «Шедеврум». Как это принято в этом сезоне, естественно, для генерации картинок.
Скоро будет, как с NFT. Если ты не заминтил токен, то тебя как будто бы и нет вовсе. Впрочем, где сейчас NFT, не напомните?
Вопросов больше, чем ответов. Как это вообще работает? Насколько это похоже на то, как работает мозг? Нейросеть действительно понимает, что она делает, или это просто хитрые программистские и математические трюки, и ничего, похожего на сознание, в них нет и быть не может? Стоит ли нам бояться искусственного интеллекта, в конце концов? Кого именно он поработит и сколько миллионов людей сделает безработными?

Попробуем дать ответы на эти вопросы

в первой серии проекта «ШАГИ».

Читайте и слушайте.

  • Михаил Бурцев
    кандидат физико-математических наук
    зав. лабораторией нейронных систем и глубокого обучения МФТИ

Часть 1. Полюбить.

Если попытаться сформулировать кратко, то нейросети – это алгоритмы, инспирированные тем, как устроен мозг и предназначенные для того, чтобы выучивать различные сложные закономерности в окружающем мире. Ключевое их отличие от других алгоритмов заключается в том, что если в стандартном алгоритме предполагается, что человек, программист описывает последовательность шагов для того, чтобы решать какую-то задачу, то в нейросетевых алгоритмах человек не описывает то, как решать задачу. Он лишь дает примеры решения задач. То есть, например, если мы говорим о нейросети, которая должна классифицировать картинки, то есть говорить, например, это картинки с домами, а другие картинки с собачками, то мы не даем алгоритм “как отличить дом от собачки?”, а просто даем много-много примеров изображений домов и собачек, для которых мы уже знаем правильный ответ, и на вход не подается изображение, а как бы на выход нейросети подается правильный ответ. И мы говорим: ты должна выучить, что вот для такого типа картинок такой ответ правильный. И специальные алгоритмы оптимизации позволяют подстроить параметры нейросети таким образом, чтобы она с наилучшим качеством эту задачу решала. И вот этот общий подход – его можно применить к огромному количеству практических задач. Если абстрактно посмотреть, какие классы задач, то это могут быть задачи классификации.

Мы можем теперь классифицировать не только картинки, а, например, шум двигателя. У вас есть автомобиль, и вы можете диагностировать, необходимо пройти профилактику, или нет.
Классифицировать звук, анализируя, есть ли какой-то тип поломки, или, может быть, он приближается. Или же, например, это может быть не просто изображение картинки, и вы ищете по своему альбому, что найти, но и это могут быть радиологические изображения, которые позволяют определить какие-то заболевания. У вас есть, например, астма или там пневмония какого-то типа. Определить по рентгеновских снимков. Это – задача классификации.

Задача другого типа – это задача, связанная с предсказанием следующего элемента последовательности. То есть, например, у вас есть много-много данных, и вы хотите предположить, что будет в будущем, на следующем шаге. То, с чего это все началось – машинный перевод. У вас есть, предположим, два предложения. Первое предложение на одном языке. Второе предложение на другом языке. И вы получаете на вход некоторую последовательность. Это слова на первом языке. И вы как бы генерируете по одному слову перевод на следующем языке. Это как предсказывать будущее – что могло бы быть на другом языке в отношении первых словесных предложений? И так, слово за словом, генерируете предложения на втором языке. И именно этот подход, связанный с генерацией, оказался сегодня наиболее востребованным и фантастически эффективным. Эти исследования продолжаются последние три года. Но сейчас оказалось, что при помощи нейросети можно создавать какие-то немыслимые алгоритмы, которые получили название “большие языковые модели”. Представим себе все наши тексты на естественном языке в виде некоторой последовательности, и эту последовательность породил человек. И, соответственно, мы хотим теперь смоделировать процесс порождения этой последовательности и обучаем наш алгоритм предсказывать последующее слово исходя из некой предыдущей последовательности – какое наиболее вероятное продолжение было бы, если мы возьмем во внимание все тексты в литературе, в интернете и так далее. И таким образом мы говорим, что это генеративная модель, потому что она продолжает, как бы генерирует дальше текст. И это первая вещь. А вторая вещь – это генерация изображений. Здесь мы можем точно такой же подход применить и генерировать картинку, например, по ее части. То есть мы имеем половину картинки, мы хотим сгенерировать вторую половину картинки. Но более того, если у нас есть данные, которые сочетают в себе текст и картинку, например, это изображение с подписями из интернета, то мы можем нашу модель обучить предсказывать. Для нейросети все равно, какого рода данные. Нейросетевые алгоритмы удивительно устойчивы и универсальны. Мы можем на вход подать текст, а на выходе получить изображение. И наоборот – на вход подать изображение, а на выходе получить текст. Таким образом, мы можем построить генеративную модель, которая, получая на вход текст, последовательность слов, генерирует картинку, которая этому тексту соответствует. Или, наоборот, получая на вход картинку, генерирует текст, который ей соответствует. И это открывает широчайшие возможности для экспериментов. Потому что получается, что мы можем писать какой-то текст, и этот текст будет синтезирован нашей нейросетью. Это сейчас одно из наиболее фантастических приложений и экспериментов, которые появились, они еще пока не нашли настоящего отображения в каких то продуктах, но в культуре и в науке они явно создали очень большой бум. Также в стороне стоит и третье, на мой взгляд, наиболее масштабное применение таких генеративных моделей – это предсказание трехмерных последовательностей белков. Если у вас есть в биологии описание белка как последовательности аминокислот, то, соответственно, этой последовательности аминокислот соответствует какая-то трехмерная структура белка, которая определяет его функцию. И на самом деле последовательность аминокислот для белков очень легко получить. А вот трехмерную структуру рассчитать при помощи квантовой механики, если 100 и больше этих аминокислот, ну и даже если десятки – сложно очень. И поэтому для того, чтобы ее выяснить, буквально до последнего времени люди проводили эксперименты, которые требовали выделения этого чистого белка и его кристаллизацию. Потом на синхротроне нужно было с него снять рентгеновскую картину, после этого ее расшифровать и мы получали трехмерную структур белка. И это занимало где то один год на один белок. Удалось обучить модель, которая по последовательности аминокислот предсказывает трехмерную структуру, как бы генерирует ее. И сейчас буквально все белки, которые мы знаем, уже трехмерной структуры.

Это значит, что для биологических наук это просто гигантский скачок вперед, потому что не нужно тратить годы. То есть мы сэкономили какие-то тысячи лет экспериментов.
И хотя сейчас мы этого не замечаем в нашей жизни так хорошо, как картинки и тексты, которые генерируются, но с точки зрения того, какое это окажет через 5-10 лет влияние на здравоохранение, на наше здоровье, продолжительность жизни, да и вообще наше понимание жизни, на то, что такое жизнь в принципе – это с фундаментальной точки зрения мне кажется очень захватывающей областью.

Часть 2. Перестать бояться.

Настораживает то, что это может создавать немного искаженную картину, что ценное, а что нет. И это искаженная картина общества влияет и на приоритеты, и на то, что можно с этим делать, потому что это может, с одной стороны, как-то притормозить исследования. Ну, например, осенью компания Meta выложила такую большую языковую модель, которая называется «Галактика», которую они обучили на научных текстах. И она, соответственно, чуть ли не научные статьи может генерировать. Понятно, что они формально выглядят как научные статьи, но, по сути, они не особо содержат в себе какие-то научные идеи. Но, тем не менее, это очень любопытный эксперимент. И он позволяет ученым генерировать какие-то тексты, возможно, какие-то гипотезы сгенерировать, и так далее. Но очевидно также, что к результатам этой генерации нужно относиться со скепсисом. Если вы какой-то случайный текст в интернете найдете, насколько ему стоит доверять? Если это там сайт типа Википедии, вы будете доверять по-одному, если это какой-то сайт непонятного, неизвестного человека, вы будете доверять по-другому. Если это сайт какого-то средства массовой информации, научного журнала, вы будете доверять в третьей степени. Точно так же и здесь – после того, как эта модель была выложена, сразу возникла куча упреков, мол, что вот теперь люди будут считать, что это истина. То есть одни люди сгенерируют при помощи этой модели статью, куда-то ее подадут, эту статью примут, и на основе этой статьи другие исследователи уже будут пытаться что-то сделать и это неизбежно приведет к проблемам. Поднялась кампания, и эту модель убрали из открытого доступа на какое-то время. И вот это как раз пример отрицательной обратной связи, которая может быть не очень хороша, потому что не надо бояться того, что эти модели сейчас неточны. Просто нужно соответствующим образом использовать эти результаты. Если я при помощи модели получил решение какого то дифференциальные уравнения, это значит, что я должен ему верить. Это значит, что я должен проверить, действительно ли это правильное решение или нет. Если это решение правильное – прекрасно, нейросеть мне сэкономила время. Если решение неправильное – ну, значит, я сам должен задачу решать. Поэтому мне кажется, что это исключительно вопрос цифровой гигиены. Это отдельная тема, и очевидно, что она будет развиваться.

Все боятся того, что искусственный интеллект лишит работы миллионы людей. Журналисты, например, часто пишут – скоро нейросети будут генерировать за нас тексты лучше, чем редакторы. Я думаю, что в ближайшее время этого не произойдет. И это связано с тем, что нейросеть не понимает контекст. По крайней мере, до той степени, до которой ее понимает человек.
И когда журналист пишет какой-то текст, чтобы этот текст был действительно интересным, он не должен быть тривиальным и сообщать то, что все итак знают. Он должен содержать в себе какую то новизну, какую-то гипотезу выдвигать, какую-то интерпретацию того, что происходит. И вот генерация этой гипотезы, интерпретация, она зависит от некоторого знания того предмета, о котором пишет журналист. Это могут быть какие-то события, действующие лица, предположения, что они могут сделать, описание возможных сценариев. И, кажется, здесь искусственный интеллект еще очень далеко. Он будет описывать скорее то, что обычно встречается в статьях, которые имеют подобную структуру. И не будет принимать во внимание содержание тех событий, которые находятся в реальном мире за границами текста.

Сейчас все эти большие модели в основном живут внутри текстового мира. Они умеют хорошо структурировать тексты, стилизовать их и так далее. Но у них нет связи с окружающей реальностью. Они не понимают, как некоторые события в окружающем мире или некоторые состояние этого мира, то, что в нем происходит, то, что мы о нем знаем, некоторые правила нашей жизни влияют на другие события, и как это затем отражается в журналистском тексте. Такого они не умеют. Но, возможно, и это когда-нибудь у них получится. И, мне кажется, это уже следующий этап развития систем искусственного интеллекта. То есть сейчас какой-нибудь Stable Dufficion, алгоритм для того, чтобы генерировать красивые картинки, может такую картинку сгенерировать, чтобы нарисовать которую нужно 10 лет учиться. А он это делает за какую-то одну минуту. Но при этом то, что он нарисует, будет просто примером массовой культуры, повторением, шаблонизацией каких-то примеров, их вариацией в рамках какой-то темы. Это не будет нести за собой какой-то идеи, которую привносит художник, развивая то или иное направление. Вот, Бэнкси, например, рисует граффити. С точки зрения научной и художественной ценности, техники – все это не особо продвинутое искусство. Но за этим стоят смыслы, концептуальные идеи, которые он пытается выразить своими произведениями.

И именно эти концептуальные идеи – как раз и есть то, на что сегодня нейросети не способны. Они не могут поставить какой-то вопрос перед человеком, чтобы он над ним задумался и попытался на него ответить. То же самое и к журналистским текстам относится.

Написать-то нейросеть сможет. А вот так написать, чтобы человек задумался о чем-то - это уже тяжело.