Локальный ИИ-агент: свой агент на своём железе

· Павел Кияткин · Продвинутый

Кратко. Локальный ИИ-агент — это связка из локальной модели (через Ollama), инструментов и оркестратора, которая запущена на собственном железе, а не в чужом облаке. Такой агент решает две задачи: приватность данных с оглядкой на 152-ФЗ и независимость от зарубежных подписок. Плата за это — заметный разрыв в качестве и скорости против фронтирных облачных моделей.

Про сборку ИИ-агентов чаще всего рассказывают на примере облачных моделей и зарубежных API. Но тот же агент — модель плюс инструменты плюс цикл — собирается и на своей машине, без выхода данных наружу. Эта страница — практическая карта суверенной сборки: что такое локальный агент, как приватность связана со 152-ФЗ, из чего его собрать, где проходит компромисс с качеством и с чего начать. Это часть раздела ИИ-агенты.

Что такое локальный ИИ-агент

Локальный ИИ-агент — это агент, у которого все три слоя живут на вашем железе: языковая модель запускается локально через Ollama, инструменты вызывают ваши же скрипты и базы, а оркестратор крутит цикл «планируй → действуй → проверь» внутри периметра. Ключевое отличие от облачного агента в том, что ни один запрос и ни один фрагмент данных не уходит на сторонний сервер: вычисление целиком происходит на вашей машине или внутри вашего контура.

Зачем это нужно: контроль над данными и независимость от внешнего сервиса. Облачный агент удобен, но привязывает вас к чужому API, тарифу и доступности. Локальный снимает эту зависимость — он работает офлайн, не считает плату за запрос и не отключится, если зарубежный провайдер ограничит доступ из России. Это та же четырёхслойная структура, что описана в материале как создать ИИ-агента, только перенесённая на ваше оборудование.

Приватность данных и 152-ФЗ

Главная причина собирать агента локально для российского контура — обработка данных внутри периметра. Когда агент работает с персональными данными клиентов, внутренними документами или коммерческой логикой, отправка их в зарубежный облачный API создаёт проблему трансграничной передачи и хранения за рубежом. Локальный запуск убирает её в корне: данные физически не покидают вашу машину, поэтому вопрос о передаче за границу просто не возникает.

Регуляторная рамка здесь — Федеральный закон № 152-ФЗ «О персональных данных». Часть 5 статьи 18 обязывает оператора при сборе персональных данных граждан РФ использовать базы данных, расположенные на территории России. Локальный агент — это предельный случай локализации: и сбор, и обработка, и хранение происходят на одном устройстве в вашем контуре. Это снимает риск, который трудно закрыть при работе через внешний сервис за пределами России.

Из чего собрать локального агента

Локальный агент собирается из трёх обязательных частей, и каждая отвечает за свою функцию: модель принимает решения, инструменты дают ей руки, оркестратор связывает всё в рабочий цикл. Базовый слой — локальная модель через Ollama, открытый инструмент, который скачивает и запускает квантованные модели одной командой на macOS, Linux и Windows. Поверх него поднимается оркестратор, который и превращает «отвечающую» модель в «действующего» агента.

Российский стек по API как компромисс

Полностью локальный агент — не единственный путь к суверенности: между приватностью «всё на своём железе» и качеством фронтирного облака есть средний вариант — российские LLM по API. GigaChat от Сбера и YandexGPT от Яндекса работают как облачные модели, но их инфраструктура расположена в контуре РФ. Для агента это означает доступ к сильной модели без зарубежной подписки и без трансграничной передачи данных.

Важно честно видеть границу компромисса. При работе через GigaChat или YandexGPT запросы всё равно уходят провайдеру — данные не остаются строго на вашем устройстве, как при полностью локальном запуске через Ollama. Зато вы получаете качество, которое домашнее железо обычно не вытягивает, и остаётесь в российском правовом и инфраструктурном поле. Разумный выбор зависит от чувствительности данных: строго приватное — локально, остальное — на российский API.

Требования к железу

Главный ограничитель локального агента — память, а не процессор: модель должна целиком поместиться в оперативную или видеопамять, и именно объём RAM или VRAM определяет, какой размер модели потянет машина и насколько быстрым будет отклик. Ollama по умолчанию использует квантованные веса, что заметно снижает аппетит модели без серьёзной потери качества. Ниже — ориентиры, от которых стоит отталкиваться при подборе оборудования.

Размер моделиМинимум памятиКомфортноХарактер работы
7B16 ГБ RAM16–24 ГББыстрый агент для рутины
14B16–32 ГБ32 ГБЗаметно умнее на шагах
32B / 33B32 ГБ64 ГБ или GPU 24 ГБ VRAMБлиже к уровню облака

Apple Silicon (чипы M-серии) особенно удобен: unified memory разделяется между CPU и GPU, и Mac с 32–64 ГБ комфортно тянет даже 32B. На ПК быстрее всего работает дискретная видеокарта с 8–24 ГБ VRAM; без неё агент считается на CPU — работает, но медленнее. Старт с модели 7B на 16 ГБ — разумная точка входа.

Компромиссы против облака

Локальный запуск даёт приватность и независимость, но за это приходится платить качеством и скоростью, и видеть этот размен важнее, чем его замалчивать. Открытая модель уровня 7–14B, которую тянет домашнее железо, уверенно справляется с рутинными многошаговыми задачами, но на длинном контексте, сложной отладке и многошаговом рассуждении фронтирные облачные модели пока заметно сильнее. Плюс локальная сборка требует своего оборудования и базовой настройки, тогда как облако работает сразу.

С чего начать

Начать стоит с минимальной рабочей связки, а не с продакшен-системы: поставьте Ollama, запустите одну открытую модель и убедитесь, что локальный API отвечает. Это даёт «мозг» агента у вас на машине без единого запроса наружу. Дальше к этой модели подключается оркестратор, который и превращает её в агента, действующего в цикле, а не просто отвечающего на сообщения.

Практический маршрут: сначала разберитесь с устройством агента на странице что такое ИИ-агент, затем пройдите полную сборку по материалу как создать ИИ-агента и перенесите модель из облака на локальный Ollama. Если на старте важнее качество, чем строгая приватность, начните с российского API (GigaChat, YandexGPT), а к полностью локальному запуску переходите по мере роста требований к данным.

Источники

  1. Ollama — официальная документация: установка, команда ollama run, локальный API для запуска открытых моделей на macOS, Windows и Linux. docs.ollama.com/quickstart и репозиторий github.com/ollama/ollama
  2. Федеральный закон от 27.07.2006 № 152-ФЗ «О персональных данных» (последняя редакция) — официальный текст, включая часть 5 статьи 18 о локализации баз данных на территории РФ. КонсультантПлюс: consultant.ru/document/cons_doc_LAW_61801
  3. Локализация персональных данных — подборка норм и разъяснений по требованию хранить данные граждан РФ внутри страны. КонсультантПлюс: consultant.ru/law/podborki/lokalizaciya_personalnyh_dannyh

Связанные концепты

Частые вопросы

Чем локальный ИИ-агент отличается от облачного?

Локальный агент работает на вашем железе: модель, инструменты и оркестратор крутятся внутри периметра, данные не покидают машину. Облачный агент обращается к модели по сети у зарубежного или российского провайдера. Локальный даёт приватность, офлайн и нулевую плату за запрос; облачный — сильнее на сложных задачах и не требует своего железа.

Какое железо нужно для локального ИИ-агента?

Ограничитель — память, а не процессор: модель должна целиком поместиться в RAM или VRAM. Для модели 7B в квантованном виде хватает 16 ГБ оперативной памяти, для 14B комфортны 32 ГБ. Apple Silicon с unified memory особенно удобен. Дискретная видеокарта с 8–24 ГБ VRAM ускоряет отклик; без неё агент считается на CPU и работает медленнее.

Можно ли собрать локального агента на российском стеке?

Полностью локально — через Ollama и открытую модель, тогда данные не выходят за пределы машины. Как компромисс между приватностью и качеством используют российские LLM по API — GigaChat от Сбера и YandexGPT: данные остаются в контуре РФ и снимается вопрос трансграничной передачи по 152-ФЗ, но запросы всё же уходят провайдеру, а не остаются на вашем железе.