Нейросеть. Кажется, главный кандидат в «слово года». Про DALL‑E и Midjourney знают уже в начальной школе. На облож­ках жур­налов — сгенери­рован­ные нейро­сетями картинки. В топе новостей что ни день — то «нейросеть нарисо­вала», «нейросеть написала», «нейросеть приду­мала». И даже рос­сийский «Яндекс», впрыгивая уже в пред­послед­ние вагоны уходящего поезда имени хайпа, пред­ставил накануне прототип своей нейросети — «Шедев­рум». Как это принято в этом сезоне, естест­венно, для гене­рации картинок. Скоро будет, как с NFT. Если ты не заминтил токен, то тебя как будто бы и нет вовсе. Впрочем, где сейчас NFT, не напомните?
перейти к чтению
Нейросеть
1
шаг
Кандидат физико-математических наук, эксперт Лаборатории культура, директор по фундаментальным исследованиям института искусственного интеллекта AIRI, руководитель проекта iPavlov — открытой нейросетевой библиотеки для разговорного интеллекта.
Сфера научных интересов: искусственная жизнь, моделирование эволюционных процессов, рост сложности в природе, проблема адаптивности обучения, селекционные теории обучения.
Михаил Бурцев
Как это вообще работает? Насколько это похоже на то, как работает мозг? Нейросеть действительно пони­мает, что она делает, или это просто хитрые програм­мистские и матема­тические трюки, и ничего, похожего на сознание, в них нет и быть не может? Стоит ли нам бояться искусствен­ного интеллекта, в конце концов? Кого именно он поработит и сколько миллионов людей сделает безра­ботными? Попробуем дать ответы на эти вопросы в первой серии проекта «шаги».
§1 Почему нейросеть может все?
Шаг 1. Нейросеть
Читайте и слушайте.
§1 — Почему нейросеть может все?
Михаил Бурцев о том как работает нейросеть и какие задачи умеет решать
Сфера научных интересов: искусственная жизнь, моделирование эволюционных процессов, рост сложности в природе, проблема адаптивности обучения, селекционные теории обучения.
Михаил Бурцев
«
Для биологических наук это просто гигантский скачок вперед, потому что не нужно тратить годы. То есть мы сэкономили какие-то тысячи лет экспериментов.
«
Мы можем теперь классифицировать не только картинки, а, например, шум двигателя. У вас есть автомобиль, и вы можете диагностировать, необходимо пройти профилактику, или нет.
Если попытаться сформулировать кратко, то нейросети — это алгоритмы, инспирированные тем, как устроен мозг и предназна­ченные для того, чтобы выучивать различные сложные законо­мерности в окружающем мире. Клю­чевое их отличие от других алго­ритмов заключается в том, что если в станда­ртном алгоритме предпо­лагается, что человек, програм­мист описывает последовательность шагов для того, чтобы решать какую-то задачу, то в нейросетевых алгоритмах человек не описывает то, как решать задачу. Он лишь дает примеры решения задач. То есть, например, если мы говорим о нейросети, которая должна классифи­цировать картинки, то есть говорить, например, это картинки с домами, а другие картинки с собачками, то мы не даем алго­ритм “как отличить дом от собачки?”, а просто даем много-много примеров изображе­ний домов и собачек, для которых мы уже знаем правильный ответ, и на вход не подается изображение, а как бы на выход нейросети подается правиль­ный ответ. И мы говорим: ты должна выучить, что вот для такого типа картинок такой ответ правильный. И специальные алго­ритмы оптимизации позво­ляют подстроить параметры нейросети таким образом, чтобы она с наилучшим качеством эту задачу решала. И вот этот общий подход — его можно применить к огромному количеству практических задач.

Если абстрактно посмотреть, какие классы задач, то это могут быть задачи класси­фика­ции.Мы можем теперь класси­фици­ровать не только картинки, а, например, шум двигателя. У вас есть автомобиль, и вы можете диагно­сти­ровать, необходимо пройти профи­лак­тику, или нет. Классифи­циро­вать звук, анализируя, есть ли какой-то тип поломки, или, может быть, он приближается. Или же, например, это может быть не просто изображение картинки, и вы ищете по своему альбому, что найти, но и это могут быть радиоло­гические изобра­жения, которые позволяют определить какие-то заболевания. У вас есть, например, астма или там пневмония какого-то типа. Определить по рентге­новских снимков. Это — задача классификации.

Задача другого типа — это задача, связанная с пред­сказанием следующего элемента последо­ватель­ности. То есть, например, у вас есть много-много данных, и вы хотите предположить, что будет в будущем, на следующем шаге. То, с чего это все началось — машинный перевод. У вас есть, предположим, два предло­жения. Первое предложение на одном языке. Второе предложение на другом языке. И вы получаете на вход некоторую последова­тель­ность. Это слова на первом языке. И вы как бы генери­руете по одному слову перевод на следующем языке. Это как пред­ска­зы­вать будущее — что могло бы быть на другом языке в отноше­нии первых словесных предложений? И так, слово за словом, генерируете предложения на втором языке. И именно этот подход, связанный с генерацией, оказался сегодня наиболее востребован­ным и фантастически эффектив­ным. Эти исследования продол­жаются последние три года. Но сейчас оказалось, что при помощи нейросети можно создавать какие-то немыслимые алгоритмы, которые получили название “большие языковые модели”.

Представим себе все наши тексты на естественном языке в виде некоторой последова­тельно­сти, и эту последова­тельность породил человек. И, соответст­венно, мы хотим теперь смоделировать процесс порождения этой последовательности и обучаем наш алгоритм пред­ска­зывать последующее слово исходя из некой предыдущей последовательности — какое наиболее вероятное продолжение было бы, если мы возьмем во внимание все тексты в литературе, в интернете и так далее. И таким образом мы говорим, что это генеративная модель, потому что она продолжает, как бы генерирует дальше текст. И это первая вещь. А вторая вещь — это генерация изобра­жений. Здесь мы можем точно такой же подход применить и генериро­вать картинку, например, по ее части. То есть мы имеем половину картинки, мы хотим сгене­рировать вторую половину картинки. Но более того, если у нас есть данные, которые сочетают в себе текст и картинку, например, это изображение с подписями из интернета, то мы можем нашу модель обучить пред­ска­зывать. Для нейросети все равно, какого рода данные.

Нейросетевые алгоритмы удивительно устойчивы и универсальны. Мы можем на вход подать текст, а на выходе получить изображение. И наоборот — на вход подать изобра­жение, а на выходе получить текст. Таким образом, мы можем построить генеративную модель, которая, получая на вход текст, после­до­ва­тельность слов, генерирует картинку, которая этому тексту соответст­вует. Или, наоборот, получая на вход картинку, гене­рирует текст, который ей соответст­вует. И это открывает широчайшие возможности для экспе­римен­тов. Потому что получается, что мы можем писать какой-то текст, и этот текст будет синтезирован нашей нейросетью. Это сейчас одно из наиболее фанта­стичес­ких приложений и экспери­ментов, которые появились, они еще пока не нашли настоящего отобра­жения в каких то продуктах, но в культуре и в науке они явно создали очень большой бум.

Также в стороне стоит и третье, на мой взгляд, наиболее масштаб­ное приме­нение таких генеративных моделей — это предсказание трех­мерных последова­тельностей белков. Если у вас есть в биологии описание белка как последова­тельности аминокислот, то, соответст­венно, этой последова­тельности аминокислот соответствует какая-то трехмерная структура белка, которая определяет его функцию. И на самом деле последова­тельность аминокислот для белков очень легко получить. А вот трехмерную структуру рассчитать при помощи квантовой механики, если 100 и больше этих аминокислот, ну и даже если десятки — сложно очень. И поэтому для того, чтобы ее выяснить, буквально до последнего времени люди проводили экспер­именты, которые требовали выделения этого чистого белка и его кристаллизацию. Потом на синхро­троне нужно было с него снять рентгеновскую картину, после этого ее расшиф­ровать и мы получали трехм­ерную структур белка. И это занимало где то один год на один белок. Удалось обучить модель, которая по последова­тельности аминокислот пред­сказывает трех­мер­ную структуру, как бы генерирует ее. И сейчас буквально все белки, которые мы знаем, уже трех­мер­ной структуры. Это значит, что для биологических наук это просто гигантский скачок вперед, потому что не нужно тратить годы. То есть мы сэкономили какие-то тысячи лет экспериментов.

И хотя сейчас мы этого не замечаем в нашей жизни так хорошо, как картинки и тексты, которые генерируются, но с точки зрения того, какое это окажет через 5–10 лет влияние на здраво­охра­не­ние, на наше здоровье, продол­жи­тель­ность жизни, да и вообще наше понима­ние жизни, на то, что такое жизнь в принципе — это с фундамен­тальной точки зрения мне кажется очень захватывающей областью.
/