Основи комп'ютерного зору: від пікселів до розуміння

3D Simulations

💻 Інформатика · ШІ

📅 Березень 2026⏱ 12 хв🟡 Середній · Останнє оновлення: 23 червня 2026 р.

Основи комп'ютерного зору: від пікселів до розуміння

Комп'ютерний зір — навчання машин інтерпретувати візуальну інформацію — одне з найуспішніших застосувань глибокого навчання. Від розпізнавання цифр до виявлення об'єктів у реальному часі в безпілотних автомобілях CNN нині досягають або перевершують точність людини в багатьох візуальних задачах. Розуміння математичної основи показує, чому ці системи такі потужні й де вони все ще зазнають невдач.

Автор: Команда MySimulator · Редакційна перевірка: Редакція MySimulator

1. Представлення та попередня обробка зображень

Цифрове зображення — це 2D-масив (або 3D-тензор для кольору) цілих значень пікселів. Для RGB-зображення висотою H, шириною W тензор має форму [H × W × 3], де кожен канал зберігає значення 0–255.

Колірні простори: RGB: (R, G, B) — адитивна колірна модель, залежна від пристрою HSV: (відтінок Hue 0-360°, насиченість Saturation 0-1, яскравість Value 0-1) — перцептивніша, корисна для сегментації та відстеження за кольором Відтінки сірого: I = 0.299R + 0.587G + 0.114B (вагування яскравості) YCbCr: використовується у стисненні JPEG; Y=яскравість, Cb/Cr=канали кольоровості Нормалізація (потрібна перед подачею в нейронну мережу): x_norm = (x - μ_channel) / σ_channel поканальна нормалізація Середнє ImageNet: μ = [0.485, 0.456, 0.406], σ = [0.229, 0.224, 0.225] Без нормалізації: великі градієнти та нестабільне навчання Аугментація зображень (розширення навчальних даних): випадкове горизонтальне віддзеркалення, випадкове обрізання до 224\times224, колірний джитер, поворот, випадкове стирання — штучно розширює навчальний набір, покращує узагальнення

2. Згортки та фільтри

Згортка проводить невелике ядро (фільтр) по зображенню, обчислюючи зважену суму в кожній позиції. Ця операція — основний будівельний блок CNN:

Дискретна 2D-згортка: (I * K)[i,j] = Σ_m Σ_n I[i+m, j+n] \cdot K[m,n] Для ядра гаусового розмиття 3\times3: K = (1/16) \times [[1,2,1], [2,4,2], [1,2,1]] \to згладжує шум (фільтр нижніх частот) Детектор країв Собеля (горизонтальний градієнт): K_x = [[-1, 0, +1], [-2, 0, +2], [-1, 0, +1]] |\nablaI| = \sqrt(G_x² + G_y²) \to величина краю θ = arctan(G_y / G_x) \to напрямок краю Розмір вихідної карти ознак: Вхід: H \times W \times C_in Ядро: k\timesk, C_out фільтрів, крок s, доповнення p Вихід: [(H + 2p - k)/s + 1] \times [(W + 2p - k)/s + 1] \times C_out Для k=3, s=1, p=1 (доповнення «same»): розмір виходу = H \times W (незмінний) Для k=3, s=2, p=1 (з кроком): розмір виходу \approx H/2 \times W/2 (зменшення розміру вдвічі)

3. Архітектура CNN

CNN складає кілька типів шарів, щоб поступово навчатися ознак вищого рівня:

Згортковий шар: навчається ядер (ваг), що активуються на певних патернах. Ранні шари виявляють краї та текстури; глибші шари виявляють частини об'єктів і цілі об'єкти.
Функція активації: ReLU (Rectified Linear Unit): f(x) = max(0, x). Уводить нелінійність. Leaky ReLU, GELU застосовують у сучасних мережах.
Пакетна нормалізація (Batch Normalisation): нормалізує активації в межах пакета до середнього 0, ст. відхилення 1, потім масштабує навчувані параметри γ, β. Суттєво стабілізує навчання, дозволяє вищі темпи навчання.
Пулінг: макс-пулінг (субдискретизація карт ознак) зменшує просторові розміри, збільшує рецептивне поле, забезпечує деяку інваріантність до зсуву. Макс-пул 2×2 з кроком 2 → зменшує обидва виміри вдвічі.
Повноз'єднаний (FC) шар: кінцеві шари розгортають об'єм ознак у вектор і навчаються глобальних комбінацій для класифікації.

Архітектура VGG-16 (2014): Вхід: 224\times224\times3 Блок 1: 2\times [Conv 3\times3, 64] + MaxPool 2\times2 \to 112\times112\times64 Блок 2: 2\times [Conv 3\times3, 128] + MaxPool \to 56\times56\times128 Блок 3: 3\times [Conv 3\times3, 256] + MaxPool \to 28\times28\times256 Блок 4: 3\times [Conv 3\times3, 512] + MaxPool \to 14\times14\times512 Блок 5: 3\times [Conv 3\times3, 512] + MaxPool \to 7\times7\times512 FC 4096 \to FC 4096 \to FC 1000 (softmax) \to ймовірності класів Усього параметрів: ~138 млн Ідея ResNet (2015 — перемога на ILSVRC): пропускні з'єднання: x \to Conv \to BN \to ReLU \to Conv \to BN \to (+x) \to ReLU Дозволяє навчати мережі з 50-152+ шарів без затухання градієнтів. Ключове: мережа навчається залишку F(x) = H(x) - x, а не H(x) безпосередньо. Помилка top-5 на ImageNet: 3.57% (перевершує людську ~5.1%)

4. Класичне виявлення ознак

До глибокого навчання в комп'ютерному зорі домінували вручну сконструйовані детектори ознак, які залишаються актуальними для легких застосувань і геометричних задач:

Детектор кутів Гарріса (1988): обчислює структурний тензор M градієнтів зображення. У куті обидва власні значення M великі. Рішення: R = det(M) − k·trace(M)². R > поріг → кут.
HOG (гістограма орієнтованих градієнтів, 2005): поділ зображення на комірки, обчислення гістограми орієнтації градієнтів на комірку, нормалізація по перекривних блоках. Використано в першому практичному детекторі пішоходів (Далал і Тріггс). Досі застосовується як вхідні ознаки для SVM.
SIFT (масштабонезалежне перетворення ознак, 1999/2004): виявляє ключові точки в масштабному просторі (різниця гаусіан), обчислює 128-вимірний дескриптор, інваріантний до масштабу, повороту та освітлення. Широко застосовується у зшиванні зображень, панорамах, 3D- реконструкції (COLMAP).

5. Виявлення об'єктів: YOLO та R-CNN

Виявлення об'єктів вимагає одночасно класифікувати об'єкти й локалізувати їх обмежувальними рамками. Дві основні парадигми:

Двоетапна: сімейство R-CNN (Region-based CNN) 1. Мережа пропозицій регіонів (RPN) генерує ~2000 кандидатних областей інтересу 2. З кожної RoI витягуються ознаки й вона класифікується незалежно Faster R-CNN (2015): RPN ділить згортковий кістяк з головою детектора ~5 fps на GPU, ~70 mAP на COCO Точна, але відносно повільна для роботи в реальному часі Одноетапна: YOLO (You Only Look Once, Редмон 2016) Один прямий прохід через мережу. Зображення поділяється на сітку S\timesS (напр., 13\times13 для YOLOv3 при вході 416\times416) Кожна комірка передбачає B обмежувальних рамок з довірою + C ймовірностей класів. Вихідний тензор: S\timesS\times(B\times5 + C), де 5 = {x,y,w,h,довіра} YOLOv8 (2023): ~50+ fps при 640\times640, ~53 mAP на COCO Без якорів, модулі C3, постобробка NMS (придушення немаксимумів, Non-Maximum Suppression) IoU (перетин до об'єднання): IoU = Area(A\capB) / Area(A\cupB) Метрика якості обмежувальної рамки: IoU > 0.5 зазвичай вважається «правильним» mAP (середня усереднена точність): площа під кривою точність-повнота, усереднена по всіх класах і порогах IoU

6. Семантична та екземплярна сегментація

Замість обмежувальних рамок сегментація присвоює мітку класу кожному пікселю:

Семантична сегментація: кожен піксель позначається класом — «небо», «дорога», «людина». Не розрізняє різні екземпляри одного класу (усі автомобілі позначаються «автомобіль»). FCN (повністю згорткова мережа) і DeepLab (з розширеними згортками й постобробкою CRF) — еталонні моделі.
Екземплярна сегментація: окрема маска для кожного екземпляра об'єкта — кожен окремий автомобіль отримує власну маску. Mask R-CNN додає голову передбачення масок до Faster R-CNN, створюючи бінарні маски сегментації для кожного виявленого екземпляра з мінімальними додатковими витратами.
Паноптична сегментація: поєднує семантичну (для фонового «stuff») та екземплярну (для об'єктів переднього плану «things») — єдине уніфіковане розмічування. Найкращі сучасні системи — Panoptic-FPN, моделі на основі DETR.

Архітектура кодувальник–декодувальник (U-Net): кодує зображення у вузьке представлення (стискальний шлях), потім декодує назад до повної роздільності (розширювальний шлях) з пропускними з'єднаннями, що несуть ознаки високої роздільності від кодувальника. Спершу розроблена для сегментації біомедичних зображень з обмеженими даними. Пропускні з'єднання критично важливі: декодувальнику потрібні і семантичний контекст (з глибоких шарів), і просторова деталізація (з ранніх шарів), щоб розмістити точні межі.

7. Сучасний зір: трансформери та далі

Візуальні трансформери (ViT, 2020) застосовують механізм самоуваги NLP-трансформерів безпосередньо до зображень:

Зображення поділяється на патчі 16×16, кожен розгортається у вектор і лінійно вбудовується як «токен».
Самоувага обчислює попарні взаємодії токенів — глобальне рецептивне поле з першого шару, на відміну від CNN, що нарощують його поступово.
Попередньо навчений на великих наборах даних (ImageNet-21k, JFT-3B), ViT перевершує CNN у масштабі.
Гібридні моделі (CvT, ConvNeXt) поєднують згорткове зміщення локальності з глобальним контекстом на основі уваги.

CLIP (контрастне попереднє навчання мова–зображення, OpenAI 2021): спільно навчає кодувальник зображень і кодувальник тексту на 400 млн пар зображення-текст. Може виконувати zero-shot класифікацію, порівнюючи зображення з текстовими описами. Основа для умовної генерації DALL-E, Stable Diffusion.
Segment Anything Model (SAM, Meta 2023): керована підказками сегментація через підказки точка/рамка/текст. Навчена на 1 мільярді масок. Узагальнюється на небачені об'єкти й домени без донавчання.
Виявлення з відкритим словником: моделі на кшталт Grounding DINO виявляють довільні класи з текстових підказок, а не лише фіксований набір категорій — рух до справжнього розуміння відкритого світу.