Разработка с ИИ: билдер-стек — RAG, промпты, fine-tuning, эмбеддинги, API
Коротко. Разработка с ИИ — это сборка продуктов поверх готовых языковых моделей. Вместо обучения модели с нуля вы соединяете её с данными через RAG, управляете ответом промптами, при необходимости дообучаете (fine-tuning), превращаете тексты в векторы (эмбеддинги) и вызываете всё это по API. Этот раздел — карта билдер-стека.
Самый частый путь в продакшен с ИИ в 2026 году — не обучать модель, а строить вокруг готовой. Модель даёт рассуждение и генерацию, а инженер собирает рабочий продукт из нескольких слоёв поверх неё. Этот раздел разбирает каждый слой билдер-стека по отдельности: что он делает, когда нужен и как его подключить.
Что входит в билдер-стек
Билдер-стек — это набор слоёв, которые превращают готовую модель в рабочий продукт. Снизу вверх: API даёт доступ к модели из кода, промпт-инжиниринг управляет тем, что она отвечает, RAG подключает ваши данные, эмбеддинги обеспечивают семантический поиск под капотом RAG, а fine-tuning меняет поведение модели, когда промпта и данных уже недостаточно. Каждый слой подключается отдельно и по мере необходимости.
RAG — память на ваших данных
RAG даёт модели доступ к вашим документам в момент ответа: система находит релевантные фрагменты в базе знаний и передаёт их модели как контекст. Это решает две главные проблемы голой модели — устаревание знаний и галлюцинации, — потому что ответ строится по найденным источникам, а не только по тому, что модель запомнила при обучении. Это первый слой, который добавляют, когда нужны свои данные.
Промпт-инжиниринг — управление ответом
Промпт-инжиниринг — это подбор формулировки, контекста и примеров так, чтобы модель выдавала точный и предсказуемый результат. Большие модели обучаются в контексте: качество ответа определяется не только моделью, но и структурой запроса. Это самый дешёвый слой стека — часто задача решается одним хорошо составленным промптом, без RAG и дообучения.
Fine-tuning — когда нужно поменять поведение
Fine-tuning — это дообучение готовой модели на своих примерах, чтобы устойчиво закрепить стиль, формат или доменное поведение. Его подключают, когда промпта и RAG уже не хватает: например, нужно, чтобы модель всегда отвечала в фирменном тоне или строго в заданной структуре. Это самый тяжёлый слой — требует данных и ресурсов, поэтому его берут точечно.
Эмбеддинги — смысл в виде векторов
Эмбеддинги превращают текст в числовой вектор так, что близкие по смыслу фрагменты оказываются рядом в пространстве. На этом стоит семантический поиск — именно он находит релевантные документы внутри RAG. Понимание эмбеддингов помогает собрать поиск, который ищет по смыслу, а не по точному совпадению слов.
API — как вызвать модель из кода
API — это способ вызвать модель из своего кода: запрос с промптом уходит на эндпоинт провайдера, в ответ приходит готовый текст. С этого слоя начинается любая разработка с ИИ — и облачные модели (Claude, GPT), и российские по API (GigaChat, YandexGPT) подключаются именно так. Оплата идёт за использованные токены.
С чего начать
Начать стоит с самого тонкого слоя: вызвать готовую модель по API и решить задачу промптом. Когда понадобятся свои данные — добавить RAG и эмбеддинги. И только если устойчиво не хватает поведения модели — подключать fine-tuning. Такой порядок экономит время и деньги: каждый следующий слой дороже предыдущего.
Источники
- Lewis P. et al. «Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks». 2020. arxiv.org/abs/2005.11401
- Anthropic. «Building Effective AI Agents». 2024. anthropic.com/engineering/building-effective-agents
- Hu E. et al. «LoRA: Low-Rank Adaptation of Large Language Models». 2021. arxiv.org/abs/2106.09685
Статьи раздела
- RAG (Retrieval-Augmented Generation) — что это и как работает RAG (Retrieval-Augmented Generation) — метод дополнения ответов языковых моделей актуальной информацией из внешних источников. Архитектура, этапы, применение.
- Промпт-инженеринг — что это, техники и лучшие практики Промпт-инженеринг (prompt engineering) — искусство составления запросов к LLM для получения нужного результата. Техники: few-shot, chain-of-thought, role prompting, structured output.
- Fine-tuning: дообучение языковых моделей Fine-tuning — дообучение готовой языковой модели на своих примерах, чтобы закрепить нужный стиль, формат и доменное поведение прямо в весах. Когда он окупается, а когда хватает промптинга или RAG.
- Эмбеддинги: векторные представления для поиска и RAG Эмбеддинг — это представление текста или картинки числовым вектором, в котором близкие по смыслу объекты оказываются рядом в пространстве. На этом стоят семантический поиск, RAG, кластеризация и рекомендации.
- API языковых моделей: как подключить ИИ к своему продукту API языковой модели — способ вызвать ИИ из своего кода: отправляете запрос с промптом, получаете ответ, оплачиваете по токенам. Как устроен вызов, какие провайдеры и сколько стоит.
Скоро в этом разделе:
- Mcp chto eto
Частые вопросы
Нужно ли обучать свою модель, чтобы делать продукты с ИИ?
Почти никогда. В большинстве продуктов берут готовую модель (Claude, GPT, GigaChat) и собирают вокруг неё: подключают данные через RAG, настраивают промпты, вызывают по API. Обучение модели с нуля — дорого и нужно единицам; даже дообучение (fine-tuning) требуется реже, чем кажется.
С чего начать разработку с ИИ?
С вызова готовой модели по API и простого промпта — это самый быстрый путь увидеть результат. Дальше по мере задачи добавляются слои: RAG, если нужны свои данные; эмбеддинги для поиска; fine-tuning, если надо закрепить стиль или формат. Каждый слой разобран в отдельном материале раздела.
RAG, fine-tuning или просто промпт — что выбрать?
Промпт — если задача решается формулировкой запроса. RAG — если нужны актуальные или закрытые данные (документы, база знаний). Fine-tuning — если надо устойчиво поменять стиль, формат или доменное поведение модели. На практике большинство задач закрывается промптом и RAG, fine-tuning подключают точечно.