API языковых моделей: как подключить ИИ к своему продукту
Кратко. API языковой модели — способ вызвать ИИ прямо из своего кода: программа шлёт на сервер провайдера запрос с промптом, а получает обратно сгенерированный текст. Чтобы встроить ИИ в продукт, нужны ключ доступа, адрес эндпоинта и оплата по использованию, которая считается в токенах входа и выхода.
Подключить языковую модель к приложению сегодня — это несколько строк кода, а не свой дата-центр. Через API чат-боты, поиск, генерация текста и анализ документов получают доступ к той же модели, что стоит за ChatGPT или GigaChat, без обучения и без покупки GPU. Этот материал — практическая карта: как устроен вызов, какие провайдеры доступны в РФ и сколько это стоит. Общий контекст раздела — в хабе разработка с ИИ.
Что такое API модели и зачем
API языковой модели — это программный интерфейс, через который ваш код обращается к модели на сервере провайдера и получает ответ. Вместо того чтобы скачивать модель и держать дорогое железо, вы отправляете запрос по сети и платите только за обработанный текст. Это превращает ИИ в обычный сетевой сервис, который встраивается в продукт так же, как платёжный шлюз или карты.
Зачем это нужно на практике: API закрывает задачи, где текст надо понять или сгенерировать. Чат-боты поддержки, автоответы на письма, извлечение данных из документов, классификация обращений, черновики статей, перевод. Везде, где раньше требовался человек-редактор или сложная ручная логика, теперь работает один вызов модели с понятным промптом.
Как устроен вызов: ключ, запрос, ответ
Вызов API проходит по простой схеме: программа формирует HTTP-запрос на адрес эндпоинта, прикладывает ключ доступа в заголовке авторизации и тело с промптом, а в ответ получает JSON со сгенерированным текстом. Никакого состояния между запросами модель не хранит — каждый вызов самостоятелен, и весь нужный контекст вы передаёте заново в теле запроса.
Тело запроса задаёт поведение модели через параметры:
- messages — список сообщений диалога: системная инструкция, реплики пользователя и предыдущие ответы модели для контекста.
- model — какую именно модель вызвать: флагманскую, лёгкую или специализированную.
- temperature — степень случайности ответа: значения ближе к нулю дают предсказуемый результат, выше — более вольный.
- max_tokens — потолок длины ответа, чтобы ограничить объём и стоимость.
В ответе приходит текст модели и поле usage со счётчиком токенов входа и выхода — по нему и считается оплата за вызов.
Какие провайдеры доступны
Провайдеров языковых моделей удобно делить на зарубежных и российских, и для продукта в РФ это практический выбор, а не вкусовщина. Зарубежные дают передовые модели, но требуют решать вопрос доступа и оплаты. Российские работают напрямую, принимают рубли, соответствуют требованиям к данным и хорошо понимают русский язык. На старте часто берут российский API, а зарубежный подключают точечно под конкретные задачи.
- OpenAI — модели GPT, эндпоинт chat completions, де-факто стандарт интерфейса, который копируют остальные (офиц. документация).
- Anthropic — модели Claude с упором на длинный контекст и работу с инструментами.
- GigaChat (Сбер) — российская модель: REST API, оплата в рублях, бесплатный стартовый пакет для физлиц (офиц. документация).
- YandexGPT (Yandex Cloud) — российская модель через AI Studio: REST и gRPC, синхронный и асинхронный режимы (офиц. документация).
Сколько стоит и как считаются токены
Оплата API считается в токенах — это куски текста, на которые модель разбивает вход и выход. Один токен — примерно 3–4 символа русского текста, или около 0,75 слова для английского. Тарифицируются отдельно входные токены (ваш промпт, контекст, история диалога) и выходные (ответ модели), причём выходные обычно дороже входных в несколько раз.
Стоимость вызова напрямую зависит от выбранной модели и длины запроса. Лёгкие модели дешевле флагманских в десятки раз, поэтому простые задачи — классификацию, короткие ответы — выгодно отдавать им, а тяжёлые рассуждения оставлять мощной модели. У GigaChat для физлиц действует стартовый пакет на 1 000 000 бесплатных токенов в год, дальше счёт идёт по выбранному тарифу. Два рычага экономии работают всегда: короткий контекст и ограничение длины ответа через max_tokens.
Безопасность ключей и данных
Ключ доступа к API — это полный доступ к вашему биллингу, поэтому относиться к нему надо как к паролю от платёжной карты. Ключ нельзя зашивать в код фронтенда или публиковать в репозитории: утёкший ключ означает чужие запросы за ваш счёт. Правильное место — переменные окружения на сервере или защищённое хранилище секретов, а сами вызовы модели идут только с бэкенда, не из браузера пользователя.
Второй слой — данные, которые вы отправляете в модель. Перед отправкой стоит убирать из промпта лишние персональные и коммерческие данные, которые модели для ответа не нужны. Для чувствительных сценариев в РФ российские провайдеры дают преимущество: обработка идёт на инфраструктуре внутри страны, что упрощает соответствие требованиям к персональным данным. Если ключ всё же засветился — его немедленно отзывают и выпускают новый.
С чего начать первый вызов
Первый вызов делается за пять шагов и не требует ничего, кроме аккаунта и любого языка с поддержкой HTTP. Начните с российского провайдера: регистрация проще, оплата в рублях, а бесплатного стартового пакета хватает на десятки тысяч экспериментов. Соберите минимальный запрос, проверьте, что ответ приходит, и только потом наращивайте логику вокруг.
- Зарегистрируйтесь у провайдера и получите ключ доступа в личном кабинете.
- Положите ключ в переменную окружения, не в код.
- Отправьте тестовый запрос с одним сообщением и коротким промптом — через готовый SDK или обычный HTTP-клиент.
- Проверьте поле usage в ответе, чтобы понимать расход токенов.
- Оберните вызов в свою логику: обработку ошибок, повторы при сбое, ограничение длины ответа.
Следующий шаг после рабочего вызова — научить модель отвечать по вашим данным. Для этого к ней подключают поиск по базе знаний: см. RAG и его основу — эмбеддинги.
Источники
- OpenAI. «Chat Completions» — официальная справка по эндпоинту, авторизации и параметрам запроса. developers.openai.com/api/reference/chat-completions/overview
- Сбер. «GigaChat API» — официальная документация: получение токена, эндпоинты, тарифы. developers.sber.ru/docs/ru/gigachat/api/overview
- Yandex Cloud AI Studio. Документация YandexGPT — REST/gRPC API, режимы вызова, авторизация. aistudio.yandex.ru/docs/ru
Связанные концепты
- RAG — как научить модель отвечать по вашим документам через поиск
- Embeddings — векторные представления текста, основа поиска для RAG
Частые вопросы
Что такое API языковой модели простыми словами?
Это способ обратиться к языковой модели прямо из своего кода: программа отправляет на сервер провайдера запрос с промптом и параметрами, а в ответ получает сгенерированный текст. Сама модель остаётся на стороне провайдера — вы не скачиваете её и не держите GPU, а платите за объём обработанного текста, измеренный в токенах.
Сколько стоит вызов API языковой модели?
Оплата идёт за токены: отдельно за входные (промпт и контекст) и за выходные (ответ модели). Один токен — примерно 3–4 символа русского текста. Тарифы зависят от модели: лёгкие модели дешевле флагманских в десятки раз. У GigaChat для физлиц есть стартовый пакет на 1 000 000 бесплатных токенов в год, дальше — оплата по выбранному тарифу.
Нужен ли свой сервер с GPU, чтобы вызывать API модели?
Нет. В этом и смысл API: вычисления идут на инфраструктуре провайдера, а ваш код лишь отправляет HTTP-запрос и читает ответ. Достаточно ключа доступа, адреса эндпоинта и интернета. Свой GPU-сервер нужен только при self-hosted-сценарии, когда вы запускаете открытую модель у себя — это отдельный путь со своими расходами на железо.