LLM (большие языковые модели) — что это и как работают

· Павел Кияткин · Средний

Кратко. LLM (Large Language Model, большая языковая модель) — нейросеть с миллиардами параметров на архитектуре трансформер, обученная предсказывать следующий токен в последовательности текста. На таком масштабе модель решает генерацию, перевод, программирование и ответы на вопросы без отдельного обучения под каждую задачу.

Что такое LLM простыми словами

LLM — это автокомплит на стероидах. Принцип тот же, что у подсказок в клавиатуре смартфона: по предыдущему тексту предсказать следующее слово. Разница — в масштабе: модель обучена на сотнях миллиардов слов и удерживает тысячи слов контекста сразу. Из этого простого механизма — предсказания следующего слова — вырастает способность рассуждать, писать код и отвечать на вопросы.

Если смартфонная модель предсказывает слово по нескольким последним, LLM учитывает десятки тысяч слов контекста. И предсказание не просто статистическое (“после ‘how are’ часто идёт ‘you’”), а основано на глубоком понимании грамматики, фактов и логических связей, которые модель извлекла из миллиардов текстов при обучении.

Это «понимание» — результат обучения, а не программирования. Никто не писал правило «столица Франции — Париж». Модель прочитала миллионы текстов, в которых эти два понятия связаны, и теперь может ответить на вопрос об этом.

Архитектура: трансформер

LLM построены на архитектуре Transformer, предложенной в статье «Attention Is All You Need» (Vaswani et al., Google, 2017). Трансформер отказался от рекуррентных связей в пользу механизма внимания, который обрабатывает всю последовательность параллельно. Эта архитектура состоит из нескольких ключевых компонентов — токенизации, эмбеддингов, механизма внимания и стопки слоёв, — которые вместе превращают входной текст в распределение вероятностей следующего токена.

Токенизация

Текст разбивается на токены — небольшие фрагменты (слова, части слов, отдельные символы). Для русского языка 1 слово ≈ 2-3 токена. Для английского — 1 слово ≈ 1-1.3 токена. Размер словаря типичной LLM — 50-200 тысяч токенов.

Пример (GPT tokenizer): "искусственный интеллект"[56789, 43210, 12345] (3 токена).

Эмбеддинги

Каждый токен превращается в вектор размерностью 4096-12288 (зависит от модели). Вектор кодирует смысл токена в многомерном пространстве, где похожие по смыслу токены находятся рядом.

Attention механизм

Для каждой позиции в тексте модель вычисляет, насколько она должна «обращать внимание» на другие позиции. Это позволяет модели:

Attention — квадратично по длине контекста: удвоение длины = учетверение вычислений. Это причина, почему длинный контекст так дорог.

Слои (layers)

Трансформер состоит из десятков слоёв (например, GPT-3 — 96 слоёв, Llama 3.3 70B — 80 слоёв). Каждый слой:

  1. Self-attention: токены «смотрят» друг на друга
  2. Feed-forward network: нелинейная трансформация

Выход последнего слоя — распределение вероятностей по всем токенам словаря. Самый вероятный токен (или случайно выбранный по температуре) становится ответом. Процесс повторяется токен за токеном.

Как обучают LLM

Обучение LLM проходит в две принципиально разные стадии. Сначала идёт предобучение (pre-training), где модель на гигантском корпусе текста учится предсказывать следующий токен и впитывает язык, факты и логические связи. Затем дообучение (fine-tuning) превращает «продолжатель текста» в полезного ассистента, который следует инструкциям и отвечает на вопросы. Первая стадия определяет знания, вторая — поведение.

Pre-training (предобучение)

Основная и самая дорогая стадия. Модель учится предсказывать следующий токен на гигантском корпусе текста: Common Crawl (веб), книги, код из GitHub, научные статьи. Объём — 1-15 триллионов токенов.

Для GPT-4 pre-training стоил по оценкам $50-100 млн. Для Claude 3 Opus — сопоставимо. Аппаратно — это тысячи GPU H100 / TPU v5 работающих неделями.

Fine-tuning (дообучение)

На pre-trained модель «надстраивается» специализация:

  1. Supervised fine-tuning (SFT) — обучение на парах «инструкция → хороший ответ», собранных вручную
  2. RLHF (Reinforcement Learning from Human Feedback) — модель генерирует несколько вариантов, человек выбирает лучший, модель учится предпочтению
  3. Constitutional AI (подход Anthropic в Claude) — модель критикует собственные ответы по набору принципов

Fine-tuning в 100-1000 раз дешевле pre-training, но критичен для качества. Без него модель просто продолжает текст, а не отвечает на вопросы.

Размеры моделей

Размер LLM измеряется числом параметров — обучаемых весов нейросети. На практике модели делят на несколько классов: от компактных на 1-7 миллиардов параметров до frontier-моделей с триллионами. Чем больше модель, тем шире её способности, но тем дороже обучение и inference. Выбор класса определяется задачей, бюджетом и требованиями к приватности данных, как показывает таблица ниже.

КлассПараметрыПримерыПрименение
Маленькие1-7BPhi-3, Llama 3 8B, Qwen 2.5 7BEdge, мобильные, специализация
Средние20-70BLlama 3.3 70B, Qwen 2.5 72B, Mistral LargeЛокальный inference, приватность
Большие100-500BClaude Sonnet, GPT-4 classОблачные API, большинство задач
Frontier500B-2T+Claude Opus 4.6, GPT-5, Gemini 2.5 ProСамые сложные задачи, reasoning

Закон масштабирования (Chinchilla scaling laws): оптимальное соотношение — ~20 токенов обучения на 1 параметр модели. Llama 3 70B обучен на 15T токенов — это 200 токенов/параметр, что избыточно. Избыток улучшает качество малых моделей (distillation эффект).

Популярные LLM (апрель 2026)

Рынок LLM делится на два больших лагеря. Проприетарные модели доступны только через API: вендор размещает их у себя и продаёт доступ, обеспечивая максимальное качество. Open-source (точнее, open-weight) модели можно скачать и запустить на собственном железе, что даёт контроль и приватность. Ниже — ключевые игроки обоих лагерей по состоянию на апрель 2026 года.

Проприетарные (API only)

Open-source

Inference: как LLM отвечает

Inference — это процесс получения ответа от уже обученной модели. В отличие от обучения, здесь веса не меняются: модель лишь прогоняет ваш запрос через свои слои и порождает ответ токен за токеном. Каждый новый токен зависит от всех предыдущих, поэтому генерация последовательна и занимает время, пропорциональное длине ответа. Внутри этот путь распадается на несколько чётких шагов.

  1. Токенизация — ваш текст → токены
  2. Кодирование контекста — вся история разговора + ваш запрос загружаются в модель
  3. Генерация — модель выдаёт токены по одному, каждый следующий зависит от всех предыдущих
  4. Декодирование — токены → текст

Генерация каждого токена — один «прогон» через всю модель. На GPU H100 для модели 70B это занимает 15-30 мс на токен. Длинный ответ (1000 токенов) = 15-30 секунд.

KV-cache — оптимизация: при генерации следующего токена не пересчитывать всю историю, а использовать кэшированные промежуточные результаты. Это ускоряет генерацию в 5-10 раз.

Ограничения LLM

Несмотря на впечатляющие возможности, LLM остаются вероятностными моделями со встроенными ограничениями. Они могут уверенно выдумывать факты, не знают событий после даты обучения, плохо справляются с многошаговым логическим выводом без специальных режимов и требуют дорогого вычислительного железа. Понимание этих границ критично: оно определяет, где модели можно доверять, а где нужны внешние проверки, RAG или человек в контуре.

Галлюцинации

LLM может уверенно выдумывать факты: несуществующие книги, ошибочные цитаты, вымышленных людей. Причина: модель обучена генерировать правдоподобный текст, а не истинный. Подробнее — галлюцинации ИИ.

Решения:

Устаревание данных

Модель знает только то, что было в обучающих данных. Claude 4.6 cutoff — май 2025, GPT-5 — декабрь 2024. События после cutoff модель не знает. RAG и web search частично решают.

Reasoning

Базовая LLM плохо решает задачи, требующие многошагового логического вывода. Современные модели (Claude 4.6 Opus, GPT-5, o3) имеют reasoning mode: перед ответом генерируют внутренние «мысли», проверяют их, и только потом отвечают. Это радикально улучшает качество на математике, программировании, планировании.

Стоимость inference

Крупная LLM требует GPU с десятками GB VRAM. Claude Opus inference стоит $15-75 за миллион токенов. Для высоконагруженных приложений это дорого — используют более мелкие модели (Haiku, Llama 70B).

AI-экспертный комментарий

Практика работы с LLM в реальных продуктах добавляет к теории важный нюанс: выбор модели редко сводится к «возьмём самую большую». На реальных задачах меньшая модель с грамотным промптом и подключённым RAG нередко догоняет frontier-решение при кратно меньшей цене. Ниже — взгляд практика на то, как балансировать качество, стоимость и контроль при подборе модели под конкретную задачу.

Работая с LLM в продакшене как AI-builder, я наблюдал эволюцию от «GPT-3.5 галлюцинирует 30% фактов» до «Claude 4.6 решает задачи архитектуры уровня senior engineer». Ключевой практический инсайт: размер модели важен, но не определяет качество в конкретной задаче. На моих тестах генерации технического контента для ruaut.ru маленький Qwen 72B с правильным промптом и RAG по документации часто выдавал результат сопоставимый с Claude Opus — но в 20 раз дешевле. Выбор модели — это триада: качество × цена × контроль (self-hosted vs API). Для frontier задач — Claude/GPT. Для массовых — Llama/Qwen. Для приватных данных — только self-hosted. — Павел Кияткин, архитектор ИИ-систем

Источники

  1. Vaswani A. et al. «Attention Is All You Need». arXiv:1706.03762 (2017) — оригинальная статья, представившая архитектуру Transformer. https://arxiv.org/abs/1706.03762
  2. Hoffmann J. et al. «Training Compute-Optimal Large Language Models». arXiv:2203.15556 (2022) — работа DeepMind о законах масштабирования (Chinchilla). https://arxiv.org/abs/2203.15556
  3. Anthropic. «Models overview» — официальная документация по моделям Claude, контекстному окну и ценам. https://platform.claude.com/docs/en/about-claude/models/overview

Связанные концепты

Частые вопросы

Чем LLM отличается от обычной нейросети?

LLM — это подтип нейросети, специализированный для работы с текстом и построенный на архитектуре трансформер. «Обычная» нейросеть — общий термин; нейросети бывают свёрточные (CNN, для изображений), рекуррентные (RNN, исторически для текста), трансформеры (для последовательностей). LLM — именно трансформеры.

Сколько данных нужно чтобы обучить LLM?

Frontier-модели (GPT-5, Claude 4.6) обучены на 10-15 триллионах токенов. Это примерно весь текст, доступный в интернете, плюс книги и код. Маленькие модели (7B) обучают на 1-3 триллионах токенов. Дообучение (fine-tuning) требует на 3-5 порядков меньше — от 1000 до 1 млн примеров.

Могу ли я обучить свою LLM?

Pre-training с нуля — от 10 млн долларов и сотни GPU. Fine-tuning существующей open-source модели (Llama 3, Qwen 3) реалистично за 100-10 000 долларов на облачных GPU. Для большинства задач лучше RAG вместо fine-tuning — обновлять знания проще через подключение БД, чем переобучать.

Что такое параметры модели?

Параметры — числовые веса нейросети, которые обучаются на данных. Claude Opus содержит около 2 трлн параметров, Llama 3 70B — 70 млрд. Каждый параметр занимает 16 или 32 бита в формате FP16/FP32. Модель 70B в FP16 весит 140 ГБ — именно поэтому нужна GPU с большим объёмом VRAM.

LLM заменит программистов?

Не полностью и не скоро. Claude Code, Cursor, GitHub Copilot ускоряют работу программистов в 2-5 раз на рутинных задачах. Но архитектура, отладка сложных багов, требования заказчика, интеграция систем всё ещё требуют человека. Изменилась роль: программист-оператор LLM вместо программиста-исполнителя. Новые навыки — prompt engineering, code review, системное мышление.