Большие языковые модели: устройство и гонка за будущее

85

Языковые модели вроде GPT и Claude изменили наше представление об искусственном интеллекте. В этом тексте объясняются ключевые принципы, архитектуры и направления развития LLM с точки зрения исследователя Михаила Бурцева. Поговорим о том, как устроены современные языковые модели и каким образом нейросети уже используются в науке, биотехнологиях и глобальной гонке искусственного интеллекта.

Михаил БУРЦЕВ кандидат физико-математических наук

Что стоит за появлением DeepSeek и других LLM

Недавно китайская компания DeepSeek выпустила новую версию своей языковой модели, что вызвало заметную реакцию на рынке и даже падение акций производителей чипов. Особенность DeepSeek в том, что модель удалось натренировать быстрее и дешевле, чем у конкурентов, с меньшими затратами энергии и вычислительных ресурсов. Это стало возможным во многом потому, что у разработчиков не было доступа к дорогим специализированным чипам — поэтому акцент сместился на поиск более эффективных решений. Такой технологический прорыв показывает, что успех в области ИИ определяется не только масштабами финансирования, но и инженерной изобретательностью.

Мы много говорим об LLM — Large Language Models (большие языковые модели), но почти не даём им определений. Создание современных языковых моделей началось с идеи: а что, если попробовать смоделировать работу мозга — связать между собой искусственные нейроны в компьютерной сети? В отличие от классических алгоритмов, где каждый шаг прописан заранее, в нейросетях основная задача — дать системе большое количество примеров, чтобы она самостоятельно научилась решать задачи. Это и легло в основу всех современных моделей искусственного интеллекта.

Эволюция языковых моделей: от статистики к генеративному мышлению

Рассмотрим, например, задачу классификации изображений. Мы подаём нейросети картинку, на выходе получаем её описание. Сначала модель ошибается, но постепенно, обучаясь на своих ошибках, корректирует внутренние связи — и решает задачу всё лучше. Именно так появились нейросети, и оказалось, что для многих задач эффективнее дать системе большой массив данных для самостоятельного обучения, чем вручную прописывать все правила для решения. Хотя первые нейросетевые алгоритмы были известны давно, только с появлением современных компьютеров в 2010-х годах стало возможным тренировать крупные модели и решать сложные задачи.

У разработчиков ИИ была цель — построить систему, которая умеет рассуждать. Чтобы добиться этого, исследователи начали учить модели генерировать тексты: если система научилась предсказывать следующее слово в предложении, она способна воспроизводить логичную речь. В 2015 году Михаил проводил эксперименты, где модель генерировала текст даже не по словам, а по буквам. Он не верил, что нейросеть способна научиться чему-то осмысленному за пару дней на текстах, но результат оказался неожиданно хорошим: модель грамматически верно составляла слова, понимала структуру языка и могла долго генерировать текст без «залипания» в бессмысленные повторения.

Почему текст — лучший способ научить модель рассуждать

За последнее десятилетие языковые модели стали гораздо больше и обучились на огромных массивах текстов — фактически, на всём, что создано человечеством за время существования интернета. Оказалось, что если научить модель воспроизводить текст, она начинает демонстрировать признаки рассуждения, отвечать на вопросы, решать задачи. Прорывным стал момент, когда модели начали дообучать для диалогового общения — именно так появился ChatGPT. Благодаря дополнительному обучению нейросеть научилась не просто выдавать факты, а общаться с пользователем в живом, структурированном формате, делать объяснения и помогать с планированием.

Обучаться чему-то на основе интернета довольно сложно — уж слишком обширной будет база. Современные модели учатся на самых разных данных: научные публикации, форумы, художественные книги, соцсети, инструкции к продуктам. Однако важно не только разнообразие источников, но и особые методы дообучения, которые задают структуру ответов и «стиль общения» модели. Не столько эмоциональность, сколько умение отвечать понятно, уместно и структурированно стало ключевым конкурентным преимуществом ChatGPT. Именно сочетание масштабного обучения и доработки «поверх» сделало модель по-настоящему массовой и полезной. Способности, демонстрируемые ChatGPT, стали неожиданностью даже для экспертов в индустрии — никто не ожидал, что языковая модель сможет настолько качественно объяснять, помогать с планированием и даже вести «живой» диалог с пользователем.

Что внутри больших моделей: фильтры, слои и зоны неопределённости

Одним из предметов дискуссии остаётся так называемый «чёрный ящик» нейросетей: мы до конца не понимаем, как именно внутри модели возникают сложные ответы. Михаил Бурцев подчёркивает: важно помнить, что у языковых моделей нет собственной мотивации, целей или стремлений. Это инструмент — он просто предсказывает наиболее вероятное следующее слово на основе данных. Этические ограничения и фильтры закладываются разработчиками. Если пользователь попросит модель о чём-то опасном, она, скорее всего, откажется или аккуратно уйдёт от ответа.

Другой расхожий страх — постепенное нарастание зависимости от ИИ. В современном бизнесе ИИ всё активнее интегрируется в различные процессы: от автоматизации до поддержки клиентов. Иногда звучит опасение, что ИИ-системы могут «захватить» управление или принимать самостоятельные решения, вредящие компании. Но на практике это невозможно: как мы уже сказали, у моделей нет мотивации или собственных целей — их всегда можно отключить или заменить. Ключ к контролю — грамотное внедрение и понимание ограничений технологий.

Какие LLM сегодня на рынке и чем они различаются

Сегодня на рынке представлено множество крупных языковых моделей: ChatGPT от OpenAIClaude от AnthropicGemini от GoogleDeepSeek и другие. Их основное отличие — не столько в базовой архитектуре (у всех она примерно одинакова — трансформеры), сколько в деталях: как собраны и отобраны обучающие данные, как проводится оптимизация, каким образом дорабатываются ответы. Для пользователя важно, что разные модели по-разному справляются с определёнными задачами — и каждый выбирает наиболее подходящий вариант.

LLM демонстрируют разную эффективность в зависимости от сферы применения. Их сравнивают по множеству тестов — от стандартных школьных заданий до олимпиадных задач по математике, а также с помощью специально разработанных методик, исключающих «угадывание» ответов из интернета. Одно из ключевых различий между моделями — длина контекста: одни способны обрабатывать 100–200 тысяч токенов, другие — до миллиона и более. Однако на практике большинство моделей эффективно используют лишь 10–15 % доступного им контекста. Поэтому при решении прикладных задач рекомендуется разбивать текст на небольшие части. Оптимальный объём контекста для модели — 5–10 страниц: при превышении этого объёма теряются фокус и детали, и качество ответов ухудшается. Если задача длинная, лучше делить её на части или просить модель напоминать о ключевых фактах из начала диалога.

Говоря о различиях между моделями, важно подчеркнуть: разные ИИ-системы ориентированы на разные задачи. Например, модели, обученные преимущественно на коде, лучше справляются с программированием; модели, сфокусированные на текстах, — с сочинением и диалогами. Компании редко раскрывают полные данные об обучении своих моделей, поэтому пользователи зачастую сами экспериментируют, делятся наблюдениями и выбирают наиболее подходящее решение под конкретную задачу.

Развитие индустрии происходит не только за счёт роста вычислительных мощностей, но и благодаря заимствованию удачных решений. Так, после того как DeepSeek внедрили визуализацию промежуточных шагов рассуждения, другие крупные модели тоже начали показывать ход генерации ответа. Кроме того, пользователи постепенно учатся эффективнее взаимодействовать с ИИ: одни модели требуют более чётких инструкций, другие хорошо справляются даже с неформальными описаниями задач.

Считается, что без многомиллиардных инвестиций создать собственную крупную языковую модель невозможно — проще разрабатывать агентов и надстройки над уже существующими системами. Однако пример DeepSeek показывает, что успех возможен не только благодаря финансированию, но и благодаря свежим инженерным решениям и быстрой интеграции научных достижений. Китайские инженеры просто аккуратно применили лучшие практики индустрии — и внедрили их быстрее других.

Архитектуры будущего: Mixture of Experts и гибридные подходы

Один из архитектурных трендов — Mixture of Experts («смесь экспертов»). Вместо одной универсальной и очень большой модели используется система из меньших специализированных моделей, каждая из которых эффективно решает свой подкласс задач. Такой подход экономит ресурсы, повышает скорость работы и гибко адаптируется под различные запросы. DeepSeek также внедрили смешанную архитектуру: есть общий «мозг» и специализированные «эксперты», а результат сопоставим с работой одной большой модели — но при меньших затратах.

Кроме того, DeepSeek применяют не только Mixture of Experts, но и метод дистилляции. Это означает, что большая модель «сжимается» в более компактные дистилляты, которые затем комбинируются для повышения эффективности.

Недавние исследования показали, что нейросеть рассуждает лучше, если генерирует промежуточные шаги. Оказалось, что если обучать модели не только выдавать финальный ответ, но и пошагово формулировать рассуждение (разбивать сложную задачу на простые подзадачи), качество и глубина решений заметно возрастают. Эту стратегию теперь активно внедряют в разработку новых LLM.

В частности, DeepSeek использовали обучение с подкреплением, при котором человек выбирает лучшее рассуждение модели — это позволяет системе постепенно увеличивать сложность и длину рассуждения. 

LLM и биология: как модели помогают расшифровывать геном

Сегодня LLM всё активнее применяются в науке — от физики до биоинформатики. В частности, модели уже помогают анализировать геномные данные, предсказывать структуры белков, исследовать динамику сложных биологических процессов. Ведь фундаментальное знание о живых организмах заключено в ДНК. При этом объёмы геномных данных стремительно растут и уже сопоставимы с текстовыми корпусами, на которых тренируются языковые модели — это открывает путь к созданию фундаментальных моделей для биологии, медицины и новых материалов.

Появление больших моделей для анализа ДНК даст учёным принципиально новые инструменты: можно будет не только предсказывать свойства существующих организмов, но и моделировать новые фенотипы, экспериментировать с комбинациями генов. Всё это — шаги к революции в биотехнологии и медицине.

ИСТОЧНИК: Постнаука https://postnauka.org/longreads/157682