LLM (большие языковые модели) — что это и как работают
Кратко. LLM (Large Language Model, большая языковая модель) — нейросеть с миллиардами параметров, обученная предсказывать следующий токен в последовательности текста. Архитектурная основа — трансформер (2017). Современные LLM (GPT-5, Claude 4.6, Llama 3.3, Qwen 3, Gemini 2.5) содержат от 7 миллиардов до 1+ триллиона параметров, обучены на триллионах токенов текста и способны решать широкий спектр задач: генерация текста, перевод, программирование, анализ данных, ответы на вопросы. Главное свойство LLM — emergence: на достаточно большом масштабе модель приобретает способности, которых не было у меньших версий.
Что такое LLM простыми словами
LLM — это автокомплит на стероидах. Принцип тот же, что у подсказок в клавиатуре смартфона: по предыдущему тексту предсказать следующее слово. Разница — в масштабе.
Если смартфонная модель предсказывает слово по нескольким последним, LLM учитывает десятки тысяч слов контекста. И предсказание не просто статистическое (“после ‘how are’ часто идёт ‘you’”), а основано на глубоком понимании грамматики, фактов и логических связей, которые модель извлекла из миллиардов текстов при обучении.
Это «понимание» — результат обучения, а не программирования. Никто не писал правило «столица Франции — Париж». Модель прочитала миллионы текстов, в которых эти два понятия связаны, и теперь может ответить на вопрос об этом.
Архитектура: трансформер
LLM построены на архитектуре Transformer, предложенной в статье “Attention Is All You Need” (Vaswani et al., Google, 2017). Ключевые компоненты:
Токенизация
Текст разбивается на токены — небольшие фрагменты (слова, части слов, отдельные символы). Для русского языка 1 слово ≈ 2-3 токена. Для английского — 1 слово ≈ 1-1.3 токена. Размер словаря типичной LLM — 50-200 тысяч токенов.
Пример (GPT tokenizer): "искусственный интеллект" → [56789, 43210, 12345] (3 токена).
Эмбеддинги
Каждый токен превращается в вектор размерностью 4096-12288 (зависит от модели). Вектор кодирует смысл токена в многомерном пространстве, где похожие по смыслу токены находятся рядом.
Attention механизм
Для каждой позиции в тексте модель вычисляет, насколько она должна «обращать внимание» на другие позиции. Это позволяет модели:
- Связывать местоимения с существительными (“он” → “король”)
- Отслеживать долгосрочные зависимости (ссылка в конце абзаца на начало)
- Понимать синтаксические структуры
Attention — квадратично по длине контекста: удвоение длины = учетверение вычислений. Это причина, почему длинный контекст так дорог.
Слои (layers)
Трансформер состоит из десятков слоёв (например, GPT-3 — 96 слоёв, Llama 3.3 70B — 80 слоёв). Каждый слой:
- Self-attention: токены «смотрят» друг на друга
- Feed-forward network: нелинейная трансформация
Выход последнего слоя — распределение вероятностей по всем токенам словаря. Самый вероятный токен (или случайно выбранный по температуре) становится ответом. Процесс повторяется токен за токеном.
Как обучают LLM
Pre-training (предобучение)
Основная и самая дорогая стадия. Модель учится предсказывать следующий токен на гигантском корпусе текста: Common Crawl (веб), книги, код из GitHub, научные статьи. Объём — 1-15 триллионов токенов.
Для GPT-4 pre-training стоил по оценкам $50-100 млн. Для Claude 3 Opus — сопоставимо. Аппаратно — это тысячи GPU H100 / TPU v5 работающих неделями.
Fine-tuning (дообучение)
На pre-trained модель «надстраивается» специализация:
- Supervised fine-tuning (SFT) — обучение на парах «инструкция → хороший ответ», собранных вручную
- RLHF (Reinforcement Learning from Human Feedback) — модель генерирует несколько вариантов, человек выбирает лучший, модель учится предпочтению
- Constitutional AI (подход Anthropic в Claude) — модель критикует собственные ответы по набору принципов
Fine-tuning в 100-1000 раз дешевле pre-training, но критичен для качества. Без него модель просто продолжает текст, а не отвечает на вопросы.
Размеры моделей
| Класс | Параметры | Примеры | Применение |
|---|---|---|---|
| Маленькие | 1-7B | Phi-3, Llama 3 8B, Qwen 2.5 7B | Edge, мобильные, специализация |
| Средние | 20-70B | Llama 3.3 70B, Qwen 2.5 72B, Mistral Large | Локальный inference, приватность |
| Большие | 100-500B | Claude Sonnet, GPT-4 class | Облачные API, большинство задач |
| Frontier | 500B-2T+ | Claude Opus 4.6, GPT-5, Gemini 2.5 Pro | Самые сложные задачи, reasoning |
Закон масштабирования (Chinchilla scaling laws): оптимальное соотношение — ~20 токенов обучения на 1 параметр модели. Llama 3 70B обучен на 15T токенов — это 200 токенов/параметр, что избыточно. Избыток улучшает качество малых моделей (distillation эффект).
Популярные LLM (апрель 2026)
Проприетарные (API only)
- Claude 4.6 Opus/Sonnet/Haiku — Anthropic. Лидер в коде и длинном контексте
- GPT-5 / GPT-5 mini — OpenAI. Лидер в мультимодальности (voice, image gen)
- Gemini 2.5 Pro / Flash — Google. Лидер в длинном контексте (2M токенов)
- GigaChat 3.1 / YandexGPT 5 — российские аналоги
Open-source
- Llama 3.3 70B — Meta. Лучший open-weight для большинства задач
- Qwen 3 72B — Alibaba. Очень сильный на коде и русском
- DeepSeek V3 / R1 — DeepSeek (China). Лидер по цена/качество
- Mistral Large 2 — Mistral AI (France). Европейский игрок
Inference: как LLM отвечает
Когда вы отправляете промпт, происходит:
- Токенизация — ваш текст → токены
- Кодирование контекста — вся история разговора + ваш запрос загружаются в модель
- Генерация — модель выдаёт токены по одному, каждый следующий зависит от всех предыдущих
- Декодирование — токены → текст
Генерация каждого токена — один «прогон» через всю модель. На GPU H100 для модели 70B это занимает 15-30 мс на токен. Длинный ответ (1000 токенов) = 15-30 секунд.
KV-cache — оптимизация: при генерации следующего токена не пересчитывать всю историю, а использовать кэшированные промежуточные результаты. Это ускоряет генерацию в 5-10 раз.
Ограничения LLM
Галлюцинации
LLM может уверенно выдумывать факты: несуществующие книги, ошибочные цитаты, вымышленных людей. Причина: модель обучена генерировать правдоподобный текст, а не истинный. Подробнее — галлюцинации ИИ.
Решения:
- RAG — подключение внешних знаний
- Fine-tuning на domain-specific данных
- Верификация ответов через внешние инструменты
Устаревание данных
Модель знает только то, что было в обучающих данных. Claude 4.6 cutoff — май 2025, GPT-5 — декабрь 2024. События после cutoff модель не знает. RAG и web search частично решают.
Reasoning
Базовая LLM плохо решает задачи, требующие многошагового логического вывода. Современные модели (Claude 4.6 Opus, GPT-5, o3) имеют reasoning mode: перед ответом генерируют внутренние «мысли», проверяют их, и только потом отвечают. Это радикально улучшает качество на математике, программировании, планировании.
Стоимость inference
Крупная LLM требует GPU с десятками GB VRAM. Claude Opus inference стоит $15-75 за миллион токенов. Для высоконагруженных приложений это дорого — используют более мелкие модели (Haiku, Llama 70B).
AI-экспертный комментарий
За два года работы с LLM в production я видел эволюцию от «GPT-3.5 галлюцинирует 30% фактов» до «Claude 4.6 решает задачи архитектуры уровня senior engineer». Ключевой практический инсайт: размер модели важен, но не определяет качество в конкретной задаче. На наших тестах генерации технического контента для ruaut.ru маленький Qwen 72B с правильным промптом и RAG по документации часто выдавал результат сопоставимый с Claude Opus — но в 20 раз дешевле. Выбор модели — это триада: качество × цена × контроль (self-hosted vs API). Для frontier задач — Claude/GPT. Для массовых — Llama/Qwen. Для приватных данных — только self-hosted. — Павел Кияткин, AI-инженер
FAQ
Чем LLM отличается от обычной нейросети?
LLM — это подтип нейросети, специализированный для работы с текстом и построенный на архитектуре трансформер. «Обычная» нейросеть — общий термин; нейросети бывают свёрточные (CNN, для изображений), рекуррентные (RNN, исторически для текста), трансформеры (для последовательностей). LLM — именно трансформеры.
Сколько данных нужно чтобы обучить LLM?
Frontier модели (GPT-5, Claude 4.6) обучены на 10-15 триллионах токенов. Это примерно весь текст, доступный в интернете + книги + код. Маленькие модели (7B) обучают на 1-3T токенов. Дообучение (fine-tuning) требует на 3-5 порядков меньше — от 1000 до 1M примеров.
Могу ли я обучить свою LLM?
Pre-training с нуля — $10M+ и сотни GPU. Fine-tuning существующей open-source модели (Llama 3, Qwen 3) — реалистично за $100-10,000 на облачных GPU. Для большинства задач лучше RAG вместо fine-tuning — обновлять знания проще через подключение БД, чем переобучать.
Что такое параметры модели?
Параметры — числовые веса нейросети, которые обучаются на данных. Claude Opus ~2 трлн параметров, Llama 3 70B = 70 млрд. Каждый параметр — 16 или 32 бита в FP16/FP32 формате. 70B модель в FP16 весит 140 GB — именно поэтому нужна GPU с большим VRAM.
LLM заменит программистов?
Не полностью и не скоро. Claude Code, Cursor, GitHub Copilot ускоряют работу программистов в 2-5 раз на рутинных задачах. Но архитектура, отладка сложных багов, требования от заказчика, интеграция систем — всё ещё требует человека. Изменилась роль: программист-операторе LLM вместо программиста-исполнителя. Новые навыки: prompt engineering, code review, системное мышление.