Що таке автофокус із глибоким навчанням: як працює автофокус від AI від Canon?

Canon підняв багато галасу щодо своєї нової системи глибокого навчання AF, яка лежить в основі останньої флагманської професійної камери виробника. Це звучить неймовірно розумно, але є безліч питань - що таке глибоке навчання? Хто викладає? Чи система вчиться під час зйомки? Це справді штучний інтелект у камері? Це насправді покращує автофокус?

Якщо ви прочитали наш огляд Canon EOS-1D X Mark III, ви будете знати, що відповідь на останнє запитання є рішучим так. Що стосується відповідей на інші запитання про Deep Learning AF, захопіть собі напій та закуску та читайте далі …

Механіка автофокусування Canon EOS-1D X Mark III неймовірно розумна, підтримуючи дві окремі системи автофокусування. По-перше, це оптична система, яка знімає 16 кадрів в секунду через видошукач, використовуючи 400000-піксельний датчик вимірювання у поєднанні з виділеним процесором Digic 8, для 191-точкового автофокусування, здатного відстежувати обличчя.

Потім існує система Live View, здатна знімати 20 кадрів в секунду, використовуючи всі 20,1 мільйона пікселів датчика зображення в поєднанні з новим процесором Digic X, для 3869 точок з двома пікселями CMOS, які можуть виконувати автофокусування з повною розпізнаванням очей.

Обидві ці системи живлять основну технологію Canon EOS iTR AFX - останню ітерацію її інтелектуального автоматичного фокусування відстеження та розпізнавання, яка дебютувала в оригінальному EOS-1D X (і згодом пробилася до сімейств 7D Mark II та 5D). І в його схемі покладений алгоритм глибокого навчання.

Глибоке навчання - це НЕ те саме, що ШІ

Перш за все, важливо пояснити, що глибоке навчання не слід плутати зі штучним інтелектом (ШІ). Система ШІ - це те, що знаходиться в стадії розвитку. Глибоке навчання або машинне навчання - це підмножина ШІ.

На відміну від справжнього ШІ, глибоке навчання - це закритий процес. Це алгоритм попередньої збірки, який дозволяє архітектурі камери по суті навчати себе, набагато швидше, ніж це може бути запрограмоване вручну інженерами. Після того, як це навчання було завершено, воно блокується та завантажується у камеру.

З цього моменту більше не можна вчитися; незважаючи на назву - і Deep Learning - це назва технології, а не опис процесу - камера не постійно вчиться і не стане «кращою», чим більше ви знімаєте (справді, система штучного інтелекту навчиться стільки, скільки ваших шкідливих звичок, як і ваших добрих!).

"Цього навчили", - пояснює Майк Бернхілл, менеджер з технічної підтримки Canon Europe. "Ви поміщаєте його в комп'ютер, він створює алгоритм, який потім завантажується в камеру. Тож він відрізняється від ШІ - ШІ - це постійне навчання; поглиблене навчання - це, по суті, сам навчає і дає кінцевий результат, який потім завантажується в камеру ".

Звідси виникає питання: чи стільки компаній кричать про функції на основі ШІ, чи справді камера здатна підтримувати штучний інтелект?

"Потужність обробки справжнього ШІ неможлива в камері", - говорить Бернхілл. "Якщо ви хочете це зробити, є телефони - але даних немає у вашому телефоні, вони знаходяться в Силіконовій долині. Ось де знаходиться система ШІ. Просто ваш телефонний зв’язок підключається до неї - вона не тут, вона там (у хмара), тому що вам потрібен сервер. Ми могли б зробити камеру, але ви б постійно тягали з собою гігантський футляр для польоту ".

Як глибоке навчання навчає себе?

Отже, алгоритм глибокого навчання навчає сам себе - але звідки він насправді вчиться? Відповідь, простіше кажучи, "від найкращих".

"Canon працював з нашими агентствами", - говорить нам Бернхілл. "Ми отримали в основному доступ до їхньої всієї бази зображень спортивної фотографії від усіх основних агентств, ми працювали з нашими послами, які займаються спортивною зйомкою, і вони надавали свої зображення різних предметів, і це дозволило нам навчити цю систему автофокусування як розпізнавати люди у спорті ".

Очевидно, що спорт є цілеспрямованим методом навчання, оскільки Canon EOS-1D X Mark III - це насамперед спортивна камера. Проблема полягає в тому, що це баскетболіст, який стоїть подалі від камери, гірськолижник у окулярах або водій Формули-1 у шоломі, у людей, які займаються спортом, обличчя часто затьмарені - це означає, що традиційне автофокусування з виявленням обличчя чи навіть очей т працює, і камера замість цього зафіксує такі речі, як цифри на формі гравця.

Надаючи алгоритму глибокого навчання доступ до величезної бібліотеки зображень, від всього, що перевернуто гімнасток до хокеїстів, що носять прокладки та каски, він здатний вивчати та диференціювати людську форму в нескінченних різноманітних ситуаціях - і в кінцевому рахунку здатний виконати це «виявлення голови», так що навіть якщо обличчя людини не видно, голова завжди є основною точкою фокусування.

"Поглиблене навчання - це, в основному, образи, ви створюєте набір правил, за якими він може вчитися, а потім відходить і створює власний алгоритм", - продовжує Бернхілл. "Таким чином, ви встановлюєте параметри того, як би виглядала людина, ви йдете:" Ось людина ", потім аналізує всі образи людей і каже:" Це людина "," Це людина ". Це проходить мільйони зображень протягом певного періоду і створює цю базу даних, і вона сама вчиться ".

Насправді алгоритм насправді створює дві бази даних - одну для обслуговування системи автофокусування з оптичним видошукачем та вимірювання, використовуючи Digic 8, та одну для обслуговування системи автофокусування в режимі реального часу, яка використовує Digic X. Оскільки саме Digic X виконує всі обчислення для відстеження голови, як тільки алгоритм автофокусування виявляє людину в кадрі, все переноситься на новий процесор.

"Після того, як ви залучили людину, у вас фактично відбувається подвійна обробка", - говорить Бернхілл. "Тут є дві бази даних, оскільки вхідні дані від обох датчиків будуть дещо відрізнятися, тож, як їх розпізнавати, буде дещо іншим, отже, це підмножини одного і того ж алгоритму. Основні дані для обох даних однакові, це просто як його буде розпізнано та застосовано до нього правильні дані ".

Якщо він не може дізнатись нових речей … як щодо АФ тварин?

Звичайно, Canon EOS-1D X Mark III - це не просто спортивна камера - інша його ключова аудиторія - це стрільці з дикої природи. Проте камера не має можливості автофокусування на тваринах, і ми встановили, що Deep Learning насправді не може навчитися жодним новим трюкам, як тільки вона буде вписана в камеру. То це? Незважаючи на всі ці фантазійні нові технології, камера навіть не сфокусується на сімейній собаці?

Це правда, що зараз камера не має автофокусування на тваринах (або очей тварин). "В основному ми концентруємось на людях, з яких слід почати, щоб спочатку запрацювати такий алгоритм", - відповідає Бернхілл. "Ось чому ми зосереджені на спорті, тому що це заданий параметр, і ми можемо навчити його за певний проміжок часу".

Тоді відповідь полягає у прошивці. Бернхілл підтвердив, що існує можливість для камери пройти більш глибоке навчання, для таких речей, як птахи та дика природа, а також для того, щоб цей оновлений алгоритм поширювався серед користувачів за допомогою оновлення мікропрограми - хоча конкретних планів оголошувати не існує.

"Ми будемо розробляти його весь час, тому на даний момент ще не визначено, як і куди ми йдемо. Але команда розробників збирається і дивиться на інші фотографії тварин - ми усвідомлюємо, що є ціла низка полів, але очевидно велика фокус цієї камери - спорт, а потім дика природа, і, очевидно, з Токіо 2022-2023 це було пріоритетом ".

Це справедливо; якби Canon чекав, коли Deep Learning навчиться усьому, випуск камери зайняв би більше часу. І хоча такі виробники, як Sony, можуть похвалитися деякими вибірковими AF для тварин, Burnhill зазначає, що Canon набагато швидше випустить повне рішення для AF для тварин, а не вибіркове, поштучно. І тут глибоке навчання стане неоціненним.

"Проблема в дикій природі, є багато різних тварин - у вас, очевидно, є хижаки з очима спереду, а потім у вас є кролячі (очі) збоку, у вас є змії, у вас є птахи … немає системи, яка б розпізнає обличчя всіх тварин. І ось тут ти потрапляєш у все це Глибоке навчання, навчання системи розпізнавати ці складні речі ".

Тож, хоча ваша Sony може відстежувати вашу собаку чи вашу кішку, але не саламандру або фламінго, Canon хоче випустити камеру, яка робить все або нічого. "Якби ми збиралися це зробити, ми хотіли б зробити це для максимально широкого спектру - ми не хочемо робити камеру, придатну для собак та камеру, яка підтримує кішок, ми хочемо зробити камеру, придатну для тварин що працює для широкого кола тварин, яких (професіонали) відстрілюють ".

Огляд Canon EOS-1D X Mark III
Як Canon зробив найшвидший дзеркальний фотоапарат за всю історію? Переробивши дзеркальну коробку
102 оновлення Canon EOS-1D X Mark III