Локальный ИИ-агент: свой агент на своём железе
Кратко. Локальный ИИ-агент — это связка из локальной модели (через Ollama), инструментов и оркестратора, которая запущена на собственном железе, а не в чужом облаке. Такой агент решает две задачи: приватность данных с оглядкой на 152-ФЗ и независимость от зарубежных подписок. Плата за это — заметный разрыв в качестве и скорости против фронтирных облачных моделей.
Про сборку ИИ-агентов чаще всего рассказывают на примере облачных моделей и зарубежных API. Но тот же агент — модель плюс инструменты плюс цикл — собирается и на своей машине, без выхода данных наружу. Эта страница — практическая карта суверенной сборки: что такое локальный агент, как приватность связана со 152-ФЗ, из чего его собрать, где проходит компромисс с качеством и с чего начать. Это часть раздела ИИ-агенты.
Что такое локальный ИИ-агент
Локальный ИИ-агент — это агент, у которого все три слоя живут на вашем железе: языковая модель запускается локально через Ollama, инструменты вызывают ваши же скрипты и базы, а оркестратор крутит цикл «планируй → действуй → проверь» внутри периметра. Ключевое отличие от облачного агента в том, что ни один запрос и ни один фрагмент данных не уходит на сторонний сервер: вычисление целиком происходит на вашей машине или внутри вашего контура.
Зачем это нужно: контроль над данными и независимость от внешнего сервиса. Облачный агент удобен, но привязывает вас к чужому API, тарифу и доступности. Локальный снимает эту зависимость — он работает офлайн, не считает плату за запрос и не отключится, если зарубежный провайдер ограничит доступ из России. Это та же четырёхслойная структура, что описана в материале как создать ИИ-агента, только перенесённая на ваше оборудование.
Приватность данных и 152-ФЗ
Главная причина собирать агента локально для российского контура — обработка данных внутри периметра. Когда агент работает с персональными данными клиентов, внутренними документами или коммерческой логикой, отправка их в зарубежный облачный API создаёт проблему трансграничной передачи и хранения за рубежом. Локальный запуск убирает её в корне: данные физически не покидают вашу машину, поэтому вопрос о передаче за границу просто не возникает.
Регуляторная рамка здесь — Федеральный закон № 152-ФЗ «О персональных данных». Часть 5 статьи 18 обязывает оператора при сборе персональных данных граждан РФ использовать базы данных, расположенные на территории России. Локальный агент — это предельный случай локализации: и сбор, и обработка, и хранение происходят на одном устройстве в вашем контуре. Это снимает риск, который трудно закрыть при работе через внешний сервис за пределами России.
Из чего собрать локального агента
Локальный агент собирается из трёх обязательных частей, и каждая отвечает за свою функцию: модель принимает решения, инструменты дают ей руки, оркестратор связывает всё в рабочий цикл. Базовый слой — локальная модель через Ollama, открытый инструмент, который скачивает и запускает квантованные модели одной командой на macOS, Linux и Windows. Поверх него поднимается оркестратор, который и превращает «отвечающую» модель в «действующего» агента.
- Локальная модель. Ollama запускает открытую модель командой вроде
ollama run qwen2.5-coder:7bи поднимает локальный API наlocalhost:11434. Веса лежат на вашей машине, интернет после установки не нужен. - Инструменты. Доступ к файлам, базам, поиску, выполнению кода и вызову внутренних API — то, чем агент действует. Всё это указывает на ваши же ресурсы внутри периметра.
- Оркестратор. Цикл, который связывает модель и инструменты: фреймворки уровня LangChain или CrewAI для кода, либо визуальный конструктор n8n, развёрнутый на своём сервере, — для сборки без программирования.
Российский стек по API как компромисс
Полностью локальный агент — не единственный путь к суверенности: между приватностью «всё на своём железе» и качеством фронтирного облака есть средний вариант — российские LLM по API. GigaChat от Сбера и YandexGPT от Яндекса работают как облачные модели, но их инфраструктура расположена в контуре РФ. Для агента это означает доступ к сильной модели без зарубежной подписки и без трансграничной передачи данных.
Важно честно видеть границу компромисса. При работе через GigaChat или YandexGPT запросы всё равно уходят провайдеру — данные не остаются строго на вашем устройстве, как при полностью локальном запуске через Ollama. Зато вы получаете качество, которое домашнее железо обычно не вытягивает, и остаётесь в российском правовом и инфраструктурном поле. Разумный выбор зависит от чувствительности данных: строго приватное — локально, остальное — на российский API.
Требования к железу
Главный ограничитель локального агента — память, а не процессор: модель должна целиком поместиться в оперативную или видеопамять, и именно объём RAM или VRAM определяет, какой размер модели потянет машина и насколько быстрым будет отклик. Ollama по умолчанию использует квантованные веса, что заметно снижает аппетит модели без серьёзной потери качества. Ниже — ориентиры, от которых стоит отталкиваться при подборе оборудования.
| Размер модели | Минимум памяти | Комфортно | Характер работы |
|---|---|---|---|
| 7B | 16 ГБ RAM | 16–24 ГБ | Быстрый агент для рутины |
| 14B | 16–32 ГБ | 32 ГБ | Заметно умнее на шагах |
| 32B / 33B | 32 ГБ | 64 ГБ или GPU 24 ГБ VRAM | Ближе к уровню облака |
Apple Silicon (чипы M-серии) особенно удобен: unified memory разделяется между CPU и GPU, и Mac с 32–64 ГБ комфортно тянет даже 32B. На ПК быстрее всего работает дискретная видеокарта с 8–24 ГБ VRAM; без неё агент считается на CPU — работает, но медленнее. Старт с модели 7B на 16 ГБ — разумная точка входа.
Компромиссы против облака
Локальный запуск даёт приватность и независимость, но за это приходится платить качеством и скоростью, и видеть этот размен важнее, чем его замалчивать. Открытая модель уровня 7–14B, которую тянет домашнее железо, уверенно справляется с рутинными многошаговыми задачами, но на длинном контексте, сложной отладке и многошаговом рассуждении фронтирные облачные модели пока заметно сильнее. Плюс локальная сборка требует своего оборудования и базовой настройки, тогда как облако работает сразу.
- Качество на сложном. На архитектурных и длинноконтекстных задачах облачные модели пока выигрывают у тех, что помещаются на домашнюю машину.
- Скорость. Без мощной видеокарты отклик локального агента медленнее облачного, особенно на больших моделях.
- Железо и настройка. Нужна машина с достаточной памятью и время на сборку оркестратора; облако этого не требует.
- Что выбрать. Чувствительные данные и офлайн — локально; тяжёлые задачи без приватных данных — в облако или на российский API.
С чего начать
Начать стоит с минимальной рабочей связки, а не с продакшен-системы: поставьте Ollama, запустите одну открытую модель и убедитесь, что локальный API отвечает. Это даёт «мозг» агента у вас на машине без единого запроса наружу. Дальше к этой модели подключается оркестратор, который и превращает её в агента, действующего в цикле, а не просто отвечающего на сообщения.
Практический маршрут: сначала разберитесь с устройством агента на странице что такое ИИ-агент, затем пройдите полную сборку по материалу как создать ИИ-агента и перенесите модель из облака на локальный Ollama. Если на старте важнее качество, чем строгая приватность, начните с российского API (GigaChat, YandexGPT), а к полностью локальному запуску переходите по мере роста требований к данным.
Источники
- Ollama — официальная документация: установка, команда
ollama run, локальный API для запуска открытых моделей на macOS, Windows и Linux. docs.ollama.com/quickstart и репозиторий github.com/ollama/ollama - Федеральный закон от 27.07.2006 № 152-ФЗ «О персональных данных» (последняя редакция) — официальный текст, включая часть 5 статьи 18 о локализации баз данных на территории РФ. КонсультантПлюс: consultant.ru/document/cons_doc_LAW_61801
- Локализация персональных данных — подборка норм и разъяснений по требованию хранить данные граждан РФ внутри страны. КонсультантПлюс: consultant.ru/law/podborki/lokalizaciya_personalnyh_dannyh
Связанные концепты
- Что такое ИИ-агент — устройство агента: модель, инструменты, память, цикл
- Как создать ИИ-агента — пошаговая сборка, которую переносят на локальный стек
- LLM — большие языковые модели, которые лежат в основе любого агента
Частые вопросы
Чем локальный ИИ-агент отличается от облачного?
Локальный агент работает на вашем железе: модель, инструменты и оркестратор крутятся внутри периметра, данные не покидают машину. Облачный агент обращается к модели по сети у зарубежного или российского провайдера. Локальный даёт приватность, офлайн и нулевую плату за запрос; облачный — сильнее на сложных задачах и не требует своего железа.
Какое железо нужно для локального ИИ-агента?
Ограничитель — память, а не процессор: модель должна целиком поместиться в RAM или VRAM. Для модели 7B в квантованном виде хватает 16 ГБ оперативной памяти, для 14B комфортны 32 ГБ. Apple Silicon с unified memory особенно удобен. Дискретная видеокарта с 8–24 ГБ VRAM ускоряет отклик; без неё агент считается на CPU и работает медленнее.
Можно ли собрать локального агента на российском стеке?
Полностью локально — через Ollama и открытую модель, тогда данные не выходят за пределы машины. Как компромисс между приватностью и качеством используют российские LLM по API — GigaChat от Сбера и YandexGPT: данные остаются в контуре РФ и снимается вопрос трансграничной передачи по 152-ФЗ, но запросы всё же уходят провайдеру, а не остаются на вашем железе.