Локальный ИИ-агент: свой агент на своём железе

2026-06-11 · Павел Кияткин · Продвинутый

Кратко. Локальный ИИ-агент — это связка из локальной модели (через Ollama), инструментов и оркестратора, которая запущена на собственном железе, а не в чужом облаке. Такой агент решает две задачи: приватность данных с оглядкой на 152-ФЗ и независимость от зарубежных подписок. Плата за это — заметный разрыв в качестве и скорости против фронтирных облачных моделей.

Про сборку ИИ-агентов чаще всего рассказывают на примере облачных моделей и зарубежных API. Но тот же агент — модель плюс инструменты плюс цикл — собирается и на своей машине, без выхода данных наружу. Эта страница — практическая карта суверенной сборки: что такое локальный агент, как приватность связана со 152-ФЗ, из чего его собрать, где проходит компромисс с качеством и с чего начать. Это часть раздела ИИ-агенты.

Что такое локальный ИИ-агент

Локальный ИИ-агент — это агент, у которого все три слоя живут на вашем железе: языковая модель запускается локально через Ollama, инструменты вызывают ваши же скрипты и базы, а оркестратор крутит цикл «планируй → действуй → проверь» внутри периметра. Ключевое отличие от облачного агента в том, что ни один запрос и ни один фрагмент данных не уходит на сторонний сервер: вычисление целиком происходит на вашей машине или внутри вашего контура.

Зачем это нужно: контроль над данными и независимость от внешнего сервиса. Облачный агент удобен, но привязывает вас к чужому API, тарифу и доступности. Локальный снимает эту зависимость — он работает офлайн, не считает плату за запрос и не отключится, если зарубежный провайдер ограничит доступ из России. Это та же четырёхслойная структура, что описана в материале как создать ИИ-агента, только перенесённая на ваше оборудование.

Приватность данных и 152-ФЗ

Главная причина собирать агента локально для российского контура — обработка данных внутри периметра. Когда агент работает с персональными данными клиентов, внутренними документами или коммерческой логикой, отправка их в зарубежный облачный API создаёт проблему трансграничной передачи и хранения за рубежом. Локальный запуск убирает её в корне: данные физически не покидают вашу машину, поэтому вопрос о передаче за границу просто не возникает.

Регуляторная рамка здесь — Федеральный закон № 152-ФЗ «О персональных данных». Часть 5 статьи 18 обязывает оператора при сборе персональных данных граждан РФ использовать базы данных, расположенные на территории России. Локальный агент — это предельный случай локализации: и сбор, и обработка, и хранение происходят на одном устройстве в вашем контуре. Это снимает риск, который трудно закрыть при работе через внешний сервис за пределами России.

Из чего собрать локального агента

Локальный агент собирается из трёх обязательных частей, и каждая отвечает за свою функцию: модель принимает решения, инструменты дают ей руки, оркестратор связывает всё в рабочий цикл. Базовый слой — локальная модель через Ollama, открытый инструмент, который скачивает и запускает квантованные модели одной командой на macOS, Linux и Windows. Поверх него поднимается оркестратор, который и превращает «отвечающую» модель в «действующего» агента.

Локальная модель. Ollama запускает открытую модель командой вроде ollama run qwen2.5-coder:7b и поднимает локальный API на localhost:11434. Веса лежат на вашей машине, интернет после установки не нужен.
Инструменты. Доступ к файлам, базам, поиску, выполнению кода и вызову внутренних API — то, чем агент действует. Всё это указывает на ваши же ресурсы внутри периметра.
Оркестратор. Цикл, который связывает модель и инструменты: фреймворки уровня LangChain или CrewAI для кода, либо визуальный конструктор n8n, развёрнутый на своём сервере, — для сборки без программирования.

Российский стек по API как компромисс

Полностью локальный агент — не единственный путь к суверенности: между приватностью «всё на своём железе» и качеством фронтирного облака есть средний вариант — российские LLM по API. GigaChat от Сбера и YandexGPT от Яндекса работают как облачные модели, но их инфраструктура расположена в контуре РФ. Для агента это означает доступ к сильной модели без зарубежной подписки и без трансграничной передачи данных.

Важно честно видеть границу компромисса. При работе через GigaChat или YandexGPT запросы всё равно уходят провайдеру — данные не остаются строго на вашем устройстве, как при полностью локальном запуске через Ollama. Зато вы получаете качество, которое домашнее железо обычно не вытягивает, и остаётесь в российском правовом и инфраструктурном поле. Разумный выбор зависит от чувствительности данных: строго приватное — локально, остальное — на российский API.

Требования к железу

Главный ограничитель локального агента — память, а не процессор: модель должна целиком поместиться в оперативную или видеопамять, и именно объём RAM или VRAM определяет, какой размер модели потянет машина и насколько быстрым будет отклик. Ollama по умолчанию использует квантованные веса, что заметно снижает аппетит модели без серьёзной потери качества. Ниже — ориентиры, от которых стоит отталкиваться при подборе оборудования.

Размер модели	Минимум памяти	Комфортно	Характер работы
7B	16 ГБ RAM	16–24 ГБ	Быстрый агент для рутины
14B	16–32 ГБ	32 ГБ	Заметно умнее на шагах
32B / 33B	32 ГБ	64 ГБ или GPU 24 ГБ VRAM	Ближе к уровню облака

Apple Silicon (чипы M-серии) особенно удобен: unified memory разделяется между CPU и GPU, и Mac с 32–64 ГБ комфортно тянет даже 32B. На ПК быстрее всего работает дискретная видеокарта с 8–24 ГБ VRAM; без неё агент считается на CPU — работает, но медленнее. Старт с модели 7B на 16 ГБ — разумная точка входа.

Компромиссы против облака

Локальный запуск даёт приватность и независимость, но за это приходится платить качеством и скоростью, и видеть этот размен важнее, чем его замалчивать. Открытая модель уровня 7–14B, которую тянет домашнее железо, уверенно справляется с рутинными многошаговыми задачами, но на длинном контексте, сложной отладке и многошаговом рассуждении фронтирные облачные модели пока заметно сильнее. Плюс локальная сборка требует своего оборудования и базовой настройки, тогда как облако работает сразу.

Качество на сложном. На архитектурных и длинноконтекстных задачах облачные модели пока выигрывают у тех, что помещаются на домашнюю машину.
Скорость. Без мощной видеокарты отклик локального агента медленнее облачного, особенно на больших моделях.
Железо и настройка. Нужна машина с достаточной памятью и время на сборку оркестратора; облако этого не требует.
Что выбрать. Чувствительные данные и офлайн — локально; тяжёлые задачи без приватных данных — в облако или на российский API.

С чего начать

Начать стоит с минимальной рабочей связки, а не с продакшен-системы: поставьте Ollama, запустите одну открытую модель и убедитесь, что локальный API отвечает. Это даёт «мозг» агента у вас на машине без единого запроса наружу. Дальше к этой модели подключается оркестратор, который и превращает её в агента, действующего в цикле, а не просто отвечающего на сообщения.

Практический маршрут: сначала разберитесь с устройством агента на странице что такое ИИ-агент, затем пройдите полную сборку по материалу как создать ИИ-агента и перенесите модель из облака на локальный Ollama. Если на старте важнее качество, чем строгая приватность, начните с российского API (GigaChat, YandexGPT), а к полностью локальному запуску переходите по мере роста требований к данным.

Источники

Ollama — официальная документация: установка, команда ollama run, локальный API для запуска открытых моделей на macOS, Windows и Linux. docs.ollama.com/quickstart и репозиторий github.com/ollama/ollama
Федеральный закон от 27.07.2006 № 152-ФЗ «О персональных данных» (последняя редакция) — официальный текст, включая часть 5 статьи 18 о локализации баз данных на территории РФ. КонсультантПлюс: consultant.ru/document/cons_doc_LAW_61801
Локализация персональных данных — подборка норм и разъяснений по требованию хранить данные граждан РФ внутри страны. КонсультантПлюс: consultant.ru/law/podborki/lokalizaciya_personalnyh_dannyh

Связанные концепты

Что такое ИИ-агент — устройство агента: модель, инструменты, память, цикл
Как создать ИИ-агента — пошаговая сборка, которую переносят на локальный стек
LLM — большие языковые модели, которые лежат в основе любого агента

Частые вопросы

Чем локальный ИИ-агент отличается от облачного?

Локальный агент работает на вашем железе: модель, инструменты и оркестратор крутятся внутри периметра, данные не покидают машину. Облачный агент обращается к модели по сети у зарубежного или российского провайдера. Локальный даёт приватность, офлайн и нулевую плату за запрос; облачный — сильнее на сложных задачах и не требует своего железа.

Какое железо нужно для локального ИИ-агента?

Ограничитель — память, а не процессор: модель должна целиком поместиться в RAM или VRAM. Для модели 7B в квантованном виде хватает 16 ГБ оперативной памяти, для 14B комфортны 32 ГБ. Apple Silicon с unified memory особенно удобен. Дискретная видеокарта с 8–24 ГБ VRAM ускоряет отклик; без неё агент считается на CPU и работает медленнее.

Можно ли собрать локального агента на российском стеке?

Полностью локально — через Ollama и открытую модель, тогда данные не выходят за пределы машины. Как компромисс между приватностью и качеством используют российские LLM по API — GigaChat от Сбера и YandexGPT: данные остаются в контуре РФ и снимается вопрос трансграничной передачи по 152-ФЗ, но запросы всё же уходят провайдеру, а не остаются на вашем железе.