Компьютерное зрение — что это, как работает и где применяется

2026-04-12 · Павел Кияткин · Базовый

Кратко. Компьютерное зрение (computer vision, CV) — область искусственного интеллекта, обучающая компьютеры понимать и интерпретировать изображения так же, как это делает человек. Основные задачи: классификация (что на изображении), детекция объектов (где что находится), сегментация (пиксельная разметка), распознавание лиц, отслеживание объектов в видео. Технологическая основа — свёрточные нейросети (CNN) с 2012 года, Vision Transformers с 2020. Рынок CV в 2026 — $28 млрд, рост 35% в год. Массовые применения: автопилоты, медицинская диагностика, контроль качества на производстве, распознавание лиц, AR/VR.

Что такое компьютерное зрение

Компьютерное зрение решает задачу: как превратить пиксели (массив чисел от 0 до 255) в семантическое понимание — «это кот», «машина повернула налево», «на сварном шве трещина».

Человеческий мозг делает это за миллисекунды. Для компьютера это сложнейшая задача — у картинки нет структуры в явном виде (как у текста — последовательность токенов). Нужны алгоритмы, извлекающие признаки: границы, текстуры, формы, и комбинирующие их в объекты.

До 2012 года использовали ручные признаки (SIFT, HOG) + классические классификаторы (SVM). Работало только на простых задачах. С 2012 года — прорыв: глубокие свёрточные нейросети (CNN) побили ручные признаки на порядок. С этого момента CV — это в первую очередь deep learning.

Основные задачи

Классификация изображений

Простейшая задача: дано изображение → предсказать один класс из набора.

Пример: ImageNet — датасет 1.4M изображений, 1000 классов (породы собак, марки машин, типы еды). Лучшие модели (2024+) — >95% точность, что превышает человека.

Детекция объектов (Object Detection)

Найти все объекты на изображении и нарисовать вокруг них рамки (bounding boxes) + классифицировать каждый.

YOLO (You Only Look Once) — семейство моделей, лидер real-time детекции. YOLOv11 (2024) — лучший баланс скорости/точности
DETR (Detection Transformer) — трансформерный подход от Facebook
RT-DETR (2023) — real-time detection через трансформеры

Применяется везде: от автопилотов до спортивной аналитики.

Семантическая сегментация

Разметить каждый пиксель изображения классом. Результат — цветная маска поверх оригинала.

U-Net — классика для медицинских снимков
DeepLabv3+ — для natural images
Mask2Former — современный трансформерный подход
SAM (Segment Anything Model, Meta 2023) — zero-shot сегментация любого объекта

Instance Segmentation

Как семантическая, но различает отдельные экземпляры одного класса. Если на фото 5 яблок — 5 разных масок, а не одна «яблоко».

Распознавание лиц

Две подзадачи:

Face detection — найти лицо на изображении
Face recognition — установить личность (1:N сравнение с базой)

Системы вроде FaceID, Face++ достигают 99.5%+ точности в контролируемых условиях.

Распознавание текста (OCR)

Извлечение текста из изображений. Современные системы: Tesseract (open-source), Google Cloud Vision, EasyOCR, PaddleOCR. Для русского — качество 95%+ на печатном, 80%+ на рукописном.

Tracking (отслеживание)

Следование за объектом в видео между кадрами. Применяется в sports analytics, surveillance, робототехнике.

Генерация изображений

Обратная задача — создать изображение по описанию. Технологии: GAN (исторически), Diffusion models (Stable Diffusion, DALL-E, Midjourney, FLUX). Не совсем «computer vision», но смежная область.

Архитектуры

CNN (свёрточные нейросети)

Работали до 2020 года как основа всего CV.

Принцип: каждый слой применяет свёртки (convolution) — фильтры, скользящие по изображению и выделяющие локальные признаки. Первые слои — простые (границы, цветовые пятна), глубокие слои — сложные (формы, объекты, целые сцены).

Ключевые модели:

LeNet (1998) — первая успешная CNN для OCR
AlexNet (2012) — прорыв, выиграл ImageNet с большим отрывом
VGG (2014) — глубина 16-19 слоёв
ResNet (2015) — skip connections, 50-152 слоя
EfficientNet (2019) — оптимальный scaling

Vision Transformers (ViT)

С 2020 года трансформеры (те же что в LLM) захватили CV.

Принцип: изображение разбивается на «патчи» (например, 16×16 пикселей), каждый патч — как «токен» в NLP. Дальше обычный transformer с self-attention.

Преимущества:

Глобальный контекст (CNN видит только локальные признаки)
Лучший scaling (большие модели работают лучше)
Унификация с NLP (можно делать мультимодальные модели)

Модели:

ViT (Google, 2020) — базовая архитектура
Swin Transformer — иерархический подход
DINO, DINOv2 (Meta) — self-supervised pre-training
SAM, CLIP — foundation models для сегментации и vision-language

CLIP и vision-language модели

CLIP (OpenAI, 2021) — модель, обученная на парах (картинка, текстовое описание) из интернета. Результат: общее пространство эмбеддингов для картинок и текста. Позволяет:

Zero-shot классификация (без обучения под конкретные классы)
Image search по текстовому запросу
Основа для DALL-E, Stable Diffusion, GPT-4V

На 2026 — vision-language встроены во все frontier LLM (Claude, GPT-5, Gemini), моделей принимают изображения наравне с текстом.

Применение в промышленности

Контроль качества (Quality Inspection)

Самое массовое применение CV в производстве. Камера фотографирует готовую продукцию, нейросеть находит дефекты: трещины, царапины, отсутствующие детали, неправильная сборка.

Пример на автозаводе BMW: 200+ камер на линии контроля кузовов. CV-система проверяет:

Зазоры между панелями (должно быть 3.5 ± 0.5 мм)
Наличие всех болтов (16 точек на каждом стыке)
Качество сварных швов (по цвету и геометрии)

ROI: сокращение брака, уходящего к дилерам, на 60%+. Окупаемость 18 месяцев.

Сортировка и pick-and-place

Робот с камерой распознаёт объекты на конвейере и сортирует по категориям. Применяется в переработке мусора, логистике, пищевой промышленности.

OCR и обработка документов

Счета-фактуры, накладные, чертежи — автоматическое извлечение данных. На машиностроительном заводе внедрение OCR для обработки входящих счетов сократило время с 15 мин на документ до 30 секунд.

Безопасность и мониторинг

Обнаружение людей в опасных зонах
Использование средств индивидуальной защиты (каски, очки)
Распознавание возгораний и задымлений
Мониторинг периметра

Подробнее в контексте промышленности — на ruaut.ru.

Применение вне промышленности

Автомобили

Tesla Autopilot, FSD — чисто CV-based (без лидаров)
Waymo, Cruise — CV + LiDAR (избыточность)
ADAS (адаптивный круиз, удержание в полосе) — стандарт в современных автомобилях

Медицина

Рентген — обнаружение пневмонии, переломов
КТ/МРТ — сегментация опухолей, планирование хирургии
Дерматология — дифференциация родинок vs меланомы
Офтальмология — диагностика диабетической ретинопатии

Retail

Smart stores (Amazon Go) — CV отслеживает что взял покупатель
Поиск по фото — Yandex/Google Lens, Aliexpress
Анализ полок — правильность размещения товаров

AR / VR

SLAM (Simultaneous Localization and Mapping) — для AR приложений
Pose estimation — отслеживание тела для games
Hand tracking — Meta Quest, Apple Vision Pro

AI-экспертный комментарий

Computer vision — область, где «off-the-shelf» решения на 2026 год почти всегда побьют custom разработку. YOLO, SAM, CLIP, GPT-4V — модели настолько сильные, что для 80% задач промышленного CV не нужна кастомная нейросеть, нужна правильная интеграция готовых. Наш опыт на ruaut.ru и других проектах: задача «найти дефект на фото детали» решается SAM для сегментации + CLIP для классификации без обучения под конкретный домен. Точность 85-90% из коробки, достаточно для пилота. Fine-tuning поднимает до 95-98% — но только когда набралось 1000+ примеров с разметкой. Главное препятствие внедрения CV в промышленности — не алгоритмы, а освещение и механика камер: плохое освещение убивает любую модель. — Павел Кияткин, AI-инженер

FAQ

Чем компьютерное зрение отличается от машинного зрения?

Термины часто используют как синонимы, но есть нюанс. Машинное зрение (machine vision) — исторически более узкий термин, обычно про промышленные применения с контролируемым освещением и жёсткими требованиями к скорости/надёжности. Компьютерное зрение (computer vision) — более широкий, включает академические исследования, автомобили, медицину. На практике сейчас эти термины взаимозаменяемы.

Какие библиотеки для CV использовать?

Для начала: OpenCV (классика, C++/Python, для базовых операций) + PyTorch/TensorFlow (deep learning). Для готовых моделей: Hugging Face Transformers (включая vision). Для production: ONNX Runtime (межплатформенный inference), TensorRT (NVIDIA GPU), OpenVINO (Intel).

Нужен ли GPU для CV?

Обучение — критически нужен. Inference — зависит от модели и требований:

YOLOv8n на 640×640 на CPU Intel Core i7: ~30ms/frame (realtime)
Stable Diffusion на CPU: минуты на картинку (некомфортно)
SAM для сегментации: на CPU медленно, на GPU мгновенно

Для промышленных задач обычно ставят edge device (Jetson Nano, Orin) на каждую камеру.

Сколько данных нужно для обучения CV-модели?

Depends on task. Для fine-tuning готовой модели на новый класс — 100-1000 примеров с аугментацией может хватить. Для обучения с нуля — тысячи-миллионы (ImageNet — 1.4M, COCO — 330K). Transfer learning — обязательный подход в 99% случаев: берём предобученную модель и дообучаем на своих данных.

Можно ли обработать видео в реальном времени?

Да. Современные модели на edge-устройствах дают 30-60 FPS на 720p. Пример стека: камера → Jetson Orin → YOLOv8 (детекция) → DeepSORT (tracking) → бизнес-логика на ПЛК. Для 4K разрешения или сложных моделей — нужны более мощные GPU (RTX 4060+).

Связанные концепты

LLM — современные frontier models видят изображения наравне с текстом
Предиктивная аналитика — CV часто используется как источник данных для predictive моделей (износ по фото)
Диффузионные модели — обратная задача CV, генерация изображений