LLM (большие языковые модели) — что это и как работают

2026-04-12 · Павел Кияткин · Средний

Кратко. LLM (Large Language Model, большая языковая модель) — нейросеть с миллиардами параметров, обученная предсказывать следующий токен в последовательности текста. Архитектурная основа — трансформер (2017). Современные LLM (GPT-5, Claude 4.6, Llama 3.3, Qwen 3, Gemini 2.5) содержат от 7 миллиардов до 1+ триллиона параметров, обучены на триллионах токенов текста и способны решать широкий спектр задач: генерация текста, перевод, программирование, анализ данных, ответы на вопросы. Главное свойство LLM — emergence: на достаточно большом масштабе модель приобретает способности, которых не было у меньших версий.

Что такое LLM простыми словами

LLM — это автокомплит на стероидах. Принцип тот же, что у подсказок в клавиатуре смартфона: по предыдущему тексту предсказать следующее слово. Разница — в масштабе.

Если смартфонная модель предсказывает слово по нескольким последним, LLM учитывает десятки тысяч слов контекста. И предсказание не просто статистическое (“после ‘how are’ часто идёт ‘you’”), а основано на глубоком понимании грамматики, фактов и логических связей, которые модель извлекла из миллиардов текстов при обучении.

Это «понимание» — результат обучения, а не программирования. Никто не писал правило «столица Франции — Париж». Модель прочитала миллионы текстов, в которых эти два понятия связаны, и теперь может ответить на вопрос об этом.

Архитектура: трансформер

LLM построены на архитектуре Transformer, предложенной в статье “Attention Is All You Need” (Vaswani et al., Google, 2017). Ключевые компоненты:

Токенизация

Текст разбивается на токены — небольшие фрагменты (слова, части слов, отдельные символы). Для русского языка 1 слово ≈ 2-3 токена. Для английского — 1 слово ≈ 1-1.3 токена. Размер словаря типичной LLM — 50-200 тысяч токенов.

Пример (GPT tokenizer): "искусственный интеллект" → [56789, 43210, 12345] (3 токена).

Эмбеддинги

Каждый токен превращается в вектор размерностью 4096-12288 (зависит от модели). Вектор кодирует смысл токена в многомерном пространстве, где похожие по смыслу токены находятся рядом.

Attention механизм

Для каждой позиции в тексте модель вычисляет, насколько она должна «обращать внимание» на другие позиции. Это позволяет модели:

Связывать местоимения с существительными (“он” → “король”)
Отслеживать долгосрочные зависимости (ссылка в конце абзаца на начало)
Понимать синтаксические структуры

Attention — квадратично по длине контекста: удвоение длины = учетверение вычислений. Это причина, почему длинный контекст так дорог.

Слои (layers)

Трансформер состоит из десятков слоёв (например, GPT-3 — 96 слоёв, Llama 3.3 70B — 80 слоёв). Каждый слой:

Self-attention: токены «смотрят» друг на друга
Feed-forward network: нелинейная трансформация

Выход последнего слоя — распределение вероятностей по всем токенам словаря. Самый вероятный токен (или случайно выбранный по температуре) становится ответом. Процесс повторяется токен за токеном.

Как обучают LLM

Pre-training (предобучение)

Основная и самая дорогая стадия. Модель учится предсказывать следующий токен на гигантском корпусе текста: Common Crawl (веб), книги, код из GitHub, научные статьи. Объём — 1-15 триллионов токенов.

Для GPT-4 pre-training стоил по оценкам $50-100 млн. Для Claude 3 Opus — сопоставимо. Аппаратно — это тысячи GPU H100 / TPU v5 работающих неделями.

Fine-tuning (дообучение)

На pre-trained модель «надстраивается» специализация:

Supervised fine-tuning (SFT) — обучение на парах «инструкция → хороший ответ», собранных вручную
RLHF (Reinforcement Learning from Human Feedback) — модель генерирует несколько вариантов, человек выбирает лучший, модель учится предпочтению
Constitutional AI (подход Anthropic в Claude) — модель критикует собственные ответы по набору принципов

Fine-tuning в 100-1000 раз дешевле pre-training, но критичен для качества. Без него модель просто продолжает текст, а не отвечает на вопросы.

Размеры моделей

Класс	Параметры	Примеры	Применение
Маленькие	1-7B	Phi-3, Llama 3 8B, Qwen 2.5 7B	Edge, мобильные, специализация
Средние	20-70B	Llama 3.3 70B, Qwen 2.5 72B, Mistral Large	Локальный inference, приватность
Большие	100-500B	Claude Sonnet, GPT-4 class	Облачные API, большинство задач
Frontier	500B-2T+	Claude Opus 4.6, GPT-5, Gemini 2.5 Pro	Самые сложные задачи, reasoning

Закон масштабирования (Chinchilla scaling laws): оптимальное соотношение — ~20 токенов обучения на 1 параметр модели. Llama 3 70B обучен на 15T токенов — это 200 токенов/параметр, что избыточно. Избыток улучшает качество малых моделей (distillation эффект).

Inference: как LLM отвечает

Когда вы отправляете промпт, происходит:

Токенизация — ваш текст → токены
Кодирование контекста — вся история разговора + ваш запрос загружаются в модель
Генерация — модель выдаёт токены по одному, каждый следующий зависит от всех предыдущих
Декодирование — токены → текст

Генерация каждого токена — один «прогон» через всю модель. На GPU H100 для модели 70B это занимает 15-30 мс на токен. Длинный ответ (1000 токенов) = 15-30 секунд.

KV-cache — оптимизация: при генерации следующего токена не пересчитывать всю историю, а использовать кэшированные промежуточные результаты. Это ускоряет генерацию в 5-10 раз.

Ограничения LLM

Галлюцинации

LLM может уверенно выдумывать факты: несуществующие книги, ошибочные цитаты, вымышленных людей. Причина: модель обучена генерировать правдоподобный текст, а не истинный. Подробнее — галлюцинации ИИ.

Решения:

RAG — подключение внешних знаний
Fine-tuning на domain-specific данных
Верификация ответов через внешние инструменты

Устаревание данных

Модель знает только то, что было в обучающих данных. Claude 4.6 cutoff — май 2025, GPT-5 — декабрь 2024. События после cutoff модель не знает. RAG и web search частично решают.

Reasoning

Базовая LLM плохо решает задачи, требующие многошагового логического вывода. Современные модели (Claude 4.6 Opus, GPT-5, o3) имеют reasoning mode: перед ответом генерируют внутренние «мысли», проверяют их, и только потом отвечают. Это радикально улучшает качество на математике, программировании, планировании.

Стоимость inference

Крупная LLM требует GPU с десятками GB VRAM. Claude Opus inference стоит $15-75 за миллион токенов. Для высоконагруженных приложений это дорого — используют более мелкие модели (Haiku, Llama 70B).

AI-экспертный комментарий

За два года работы с LLM в production я видел эволюцию от «GPT-3.5 галлюцинирует 30% фактов» до «Claude 4.6 решает задачи архитектуры уровня senior engineer». Ключевой практический инсайт: размер модели важен, но не определяет качество в конкретной задаче. На наших тестах генерации технического контента для ruaut.ru маленький Qwen 72B с правильным промптом и RAG по документации часто выдавал результат сопоставимый с Claude Opus — но в 20 раз дешевле. Выбор модели — это триада: качество × цена × контроль (self-hosted vs API). Для frontier задач — Claude/GPT. Для массовых — Llama/Qwen. Для приватных данных — только self-hosted. — Павел Кияткин, AI-инженер

FAQ

Чем LLM отличается от обычной нейросети?

LLM — это подтип нейросети, специализированный для работы с текстом и построенный на архитектуре трансформер. «Обычная» нейросеть — общий термин; нейросети бывают свёрточные (CNN, для изображений), рекуррентные (RNN, исторически для текста), трансформеры (для последовательностей). LLM — именно трансформеры.

Сколько данных нужно чтобы обучить LLM?

Frontier модели (GPT-5, Claude 4.6) обучены на 10-15 триллионах токенов. Это примерно весь текст, доступный в интернете + книги + код. Маленькие модели (7B) обучают на 1-3T токенов. Дообучение (fine-tuning) требует на 3-5 порядков меньше — от 1000 до 1M примеров.

Могу ли я обучить свою LLM?

Pre-training с нуля — $10M+ и сотни GPU. Fine-tuning существующей open-source модели (Llama 3, Qwen 3) — реалистично за $100-10,000 на облачных GPU. Для большинства задач лучше RAG вместо fine-tuning — обновлять знания проще через подключение БД, чем переобучать.

Что такое параметры модели?

Параметры — числовые веса нейросети, которые обучаются на данных. Claude Opus ~2 трлн параметров, Llama 3 70B = 70 млрд. Каждый параметр — 16 или 32 бита в FP16/FP32 формате. 70B модель в FP16 весит 140 GB — именно поэтому нужна GPU с большим VRAM.

LLM заменит программистов?

Не полностью и не скоро. Claude Code, Cursor, GitHub Copilot ускоряют работу программистов в 2-5 раз на рутинных задачах. Но архитектура, отладка сложных багов, требования от заказчика, интеграция систем — всё ещё требует человека. Изменилась роль: программист-операторе LLM вместо программиста-исполнителя. Новые навыки: prompt engineering, code review, системное мышление.

Связанные концепты

Claude AI — одна из лидирующих LLM на 2026 год
RAG — способ дополнить знания LLM актуальной информацией
Промпт-инженеринг — искусство эффективных запросов к LLM