Досягнення комп’ютерного бачення сприяють автономії транспорту

Зір — це потужна сенсорна інформація людини. Це дозволяє виконувати складні завдання та процеси, які ми сприймаємо як належне. Зі збільшенням AoT™ (Autonomy of Things) у різноманітних додатках, починаючи від транспорту та сільського господарства до робототехніки та медицини, роль камер, обчислювальної техніки та машинного навчання у забезпеченні людського зору та пізнання стає значною. Комп’ютерне бачення як академічна дисципліна з’явилося в 1960-х роках, головним чином в університетах, які займаються новою сферою штучного інтелекту (ШІ) і машинного навчання. У наступні чотири десятиліття він різко прогресував, оскільки були досягнуті значні успіхи в напівпровідникових і обчислювальних технологіях. Останні досягнення в області глибокого навчання та штучного інтелекту ще більше прискорили застосування комп’ютерного зору для забезпечення сприйняття та пізнання навколишнього середовища в режимі реального часу з низькою затримкою, забезпечуючи автономність, безпеку та ефективність у різних програмах. Транспорт — це сфера, яка значно виграла.

LiDAR (Light Detection and Ranging) — це підхід активного оптичного зображення, який використовує лазери для визначення 3D-оточення навколо об’єкта. Це одна з технологій, яку намагаються порушити рішення комп’ютерного зору (які покладаються виключно на навколишнє освітлення та не використовують лазери для сприйняття 3D). Загальною думкою є те, що людям-водіям не потрібен LiDAR для сприйняття глибини, тому й машинам не потрібен. Поточні комерційні функції автономного керування L3 (повна автономія в певних географічних регіонах і погодних умовах, коли водій готовий взяти керування за лічені секунди) продукти сьогодні використовувати LiDAR. Техніки, що базуються виключно на баченні, досі не можуть запропонувати цю можливість на комерційній основі.

РЕКЛАМА

TeslaTSLA
є домінуючим прихильником використання пасивного комп’ютерного зору на основі камери для забезпечення автономності пасажирського автомобіля. Під час нещодавнього заходу компанії AI Day Ілон Маск та його інженери провели вражаючу презентацію його штучного інтелекту, керування даними та обчислювальних можливостей, які підтримують, серед інших ініціатив, функцію повного самостійного водіння (FSD) на багатьох моделях Tesla. FSD вимагає, щоб людина-водій постійно брав участь у керуванні автомобілем (що відповідає автономії L2). Наразі ця опція доступна для 160,000 8 автомобілів, придбаних клієнтами в США та Канаді. Набір із 360 камер на кожному транспортному засобі забезпечує 75° карту заповнюваності. Дані камер (та інші) з цих транспортних засобів використовуються для навчання його нейронної мережі (яка використовує автоматичне маркування) розпізнавати об’єкти, будувати потенційні траєкторії транспортних засобів, вибирати оптимальні з них і активувати відповідні керуючі дії. За останні 12 місяців відбулося ~1 тисяч оновлень нейронної мережі (~7 оновлення кожні 4 хвилин), оскільки постійно збираються нові дані та виявляються помилки маркування або помилки маневрування. Навчена мережа виконує дії планування та керування через вбудовану резервну архітектуру спеціально створеної обчислювальної електроніки. Tesla очікує, що FSD зрештою призведе до автономних транспортних засобів (AV), які забезпечують повну автономію в певних робочих областях без необхідності участі водія (також називають автономією LXNUMX).

Інші компанії, такі як Phiar, Helm.ai і NODAR також розвивають комп’ютерне бачення. NODAR прагне значно розширити діапазон зображення та тривимірне сприйняття систем стереокамер, навчившись коригувати зміщення камери та ефекти вібрації за допомогою запатентованих алгоритмів машинного навчання. Нещодавно було зібрано 12 мільйонів доларів для виробництва свого флагманського продукту, Hammerhead™, який використовує «готові» автомобільні камери та стандартні обчислювальні платформи.

Крім вартості та розміру, частим аргументом проти використання LiDAR є те, що він має обмежений діапазон і роздільну здатність порівняно з камерами. Наприклад, сьогодні доступні LiDAR з радіусом дії 200 м і 5-10 М точок/с (PPS, схоже на роздільну здатність). На відстані 200 м невеликі перешкоди, такі як цегла або уламки шин, реєструватимуть дуже мало точок (можливо, 2-3 у вертикальному напрямку та 3-5 у горизонтальному напрямку), що ускладнює розпізнавання об’єктів. Речі стають ще більш грубими на великих відстанях. Для порівняння, стандартні мегапіксельні камери, що працюють на частоті 30 Гц, можуть генерувати 30 Мпікселів/с, забезпечуючи чудове розпізнавання об’єктів навіть на великій відстані. Досконаліші камери (12 Мпікселів) можуть збільшити це ще більше. Питання полягає в тому, як використати ці величезні дані та створити ефективне сприйняття з затримками на рівні мілісекунд, низьким енергоспоживанням і погіршеними умовами освітлення.

РЕКЛАМА


RecogniКаліфорнійська компанія намагається вирішити цю проблему. За словами генерального директора Марка Боліто, його місія полягає в «забезпечують надлюдське візуальне сприйняття повністю автономних транспортних засобів.” Компанію було засновано в 2017 році, на сьогоднішній день вона залучила 75 мільйонів доларів і налічує 70 співробітників. Р. К. Ананд, випускник Juniper Networks, є одним із співзасновників і директором із продуктів. Він вважає, що використання камер вищої роздільної здатності з динамічним діапазоном > 120 дБ, що працюють із високою частотою кадрів (наприклад, OnSemi, Sony та Omnivision), забезпечує дані, необхідні для створення 3D-інформації високої роздільної здатності, яка є критичною для реалізації AV. Сприятливими факторами є:

  1. Спеціально розроблені ASIC для ефективної обробки даних і створення точних 3D-карт високої роздільної здатності середовища автомобіля. Вони виготовлені за технологічним процесом TSMC 7 нм із розміром мікросхеми 100 мм² і працюють на частоті 1 ГГц.
  2. Запатентовані алгоритми машинного навчання для обробки мільйонів точок даних в автономному режимі для створення навченої нейронної мережі, яка потім може працювати ефективно та безперервно навчатися. Ця мережа забезпечує сприйняття та включає класифікацію та виявлення об’єктів, семантичну сегментацію, виявлення смуг руху, розпізнавання дорожніх знаків і світлофорів
  3. Зведення до мінімуму операцій зберігання й множення поза чіпом, які є енергоємними та створюють високу затримку. Конструкція ASIC Recogni оптимізована для логарифмічної математики та використовує додавання. Подальша ефективність реалізується шляхом оптимального кластеризування ваг у навченій нейронній мережі.

На етапі навчання комерційний LiDAR використовується як базова правда для навчання даних стереокамери з високою роздільною здатністю та широким динамічним діапазоном, щоб отримати інформацію про глибину та зробити її надійною проти зсуву та ефектів вібрації. За словами пана Ананда, їхня реалізація машинного навчання настільки ефективна, що може екстраполювати оцінки глибини за межі навчальних діапазонів, наданих калібрувальним LiDAR (який забезпечує наземну правду на діапазон до 100 м).

РЕКЛАМА

Наведені вище навчальні дані проводилися вдень зі стереопарою 8.3-мегапіксельних камер, що працювали з частотою кадрів 30 Гц (~0.5 Б пікселів на секунду). Він демонструє здатність навченої мережі отримувати 3D-інформацію в сцені за межами 100-метрового діапазону, на якому вона була навчена. Рішення Recogni також може екстраполювати своє навчання з денними даними на нічну продуктивність (рис. 2).

РЕКЛАМА

За словами пана Ананда, дані про дальність точні з точністю до 5% (на великих відстанях) і близько 2% (на менших відстанях). Рішення забезпечує 1000 TOPS (трильйонів операцій на секунду) із затримкою 6 мс і енергоспоживанням 25 Вт (40 TOPS/Вт), що є лідером у галузі. Конкуренти, які використовують цілу математику, у > 10 разів нижчі за цим показником. Рішення Recogni зараз проходить випробування в багатьох постачальників автомобільної промисловості Tier 1.

Пророк («передбачити та побачити, де відбувається дія»), розташована у Франції, використовує камери на основі подій для AV, Advanced Driver Assistance Systems (ADAS), промислової автоматизації, споживчих програм і охорони здоров’я. Заснований у 2014 році компанія нещодавно завершила фінансування раунду C у розмірі 50 мільйонів доларів, на сьогоднішній день зібрано 127 мільйонів доларів США. Xiaomi, провідний виробник мобільних телефонів, є одним з інвесторів. Метою Prophesee є імітація людського зору, в якому рецептори сітківки ока реагують на динамічну інформацію. Людський мозок зосереджується на обробці змін у сцені (особливо під час водіння). Основна ідея полягає у використанні архітектур камери та пікселя, які виявляють зміни інтенсивності світла понад порогове значення (подія) і надають лише ці дані в обчислювальний стек для подальшої обробки. Пікселі працюють асинхронно (не в кадрі, як у звичайних камерах CMOS) і на набагато вищих швидкостях, оскільки їм не потрібно інтегрувати фотони, як у звичайній камері на основі кадру, і чекати, поки весь кадр закінчить це, перш ніж зчитувати дані. Переваги значні – менша пропускна здатність даних, затримка прийняття рішення, обсяг пам’яті та енергоспоживання. Перший комерційний датчик зору компанії VGA на основі подій мав широкий динамічний діапазон (>120 дБ), низьке енергоспоживання (26 мВт на рівні датчика або 3 нВт/подію). Також була запущена версія HD (High Definition) (спільно розроблена з Sony) із найкращим у галузі розміром пікселя (< 5 мкм).

РЕКЛАМА

Ці датчики є основою сенсорної платформи Metavision®, яка використовує штучний інтелект для забезпечення інтелектуального та ефективного сприйняття для автономних додатків і знаходиться на стадії оцінки кількома компаніями в транспортному просторі. Крім переднього сприйняття для AV та ADAS, Prophesee активно співпрацює з клієнтами для моніторингу в кабіні водія для додатків L2 і L3, див. Малюнок 4:

Автомобільні можливості є прибутковими, але цикли розробки довгі. Протягом останніх двох років Prophesee помітила значний інтерес і тягу до простору машинного зору для промислового застосування. Вони включають високошвидкісний підрахунок, перевірку поверхні та моніторинг вібрації.

РЕКЛАМА

Prophesee нещодавно оголосили про співпрацю з провідними розробниками систем машинного зору для використання можливостей у промисловій автоматизації, робототехніці, автомобілебудуванні та IoT (Інтернет речей). Інші безпосередні можливості — це корекція розмитості зображення для мобільних телефонів і програми AR/VR. Вони використовують датчики нижчого формату, ніж ті, що використовуються для довгострокових можливостей ADAS/AV, споживають ще менше енергії та працюють зі значно меншою затримкою.


Ізраїль є провідним інноватором у галузі високих технологій із значними венчурними інвестиціями та активним стартап-середовищем. З 2015 року венчурні інвестиції в технологічний сектор склали близько 70 мільярдів доларів. Частина цього в області комп'ютерного зору. Mobileye очолила цю революцію в 1999 році, коли Амнон Шашуа, провідний дослідник штучного інтелекту в Єврейському університеті, заснував компанію, щоб зосередитися на сприйнятті камери для ADAS і AV. У 2014 році компанія подала заявку на IPO і була придбана IntelINTC
у 2017 році за 15 мільярдів доларів. Сьогодні це легко провідний гравець у галузі комп’ютерного зору та AV, а останнім часом оголосила про намір подати заявку на IPO і стати самостійною організацією. Дохід Mobileye склав 1.4 мільярда доларів США на рік і мав невеликі збитки (75 мільйонів доларів США). Він надає можливості комп’ютерного зору 50 виробникам автомобільного обладнання, які розгортають його на 800 моделях автомобілів для можливостей ADAS. У майбутньому вони мають намір лідирувати в автономності транспортних засобів L4 (водій не потрібен), використовуючи цей досвід комп’ютерного бачення та можливості LiDAR на основі платформи кремнієвої фотоніки Intel. Оцінка Mobileye оцінюється в ~50 мільярдів доларів, коли вони нарешті вийдуть на біржу.

РЕКЛАМА

Столиця Чампел, розташована в Єрусалимі, є лідером інвестування в компанії, що розробляють продукти на основі комп’ютерного бачення для різноманітних застосувань від транспорту та сільського господарства до безпеки та безпеки. Амір Вейтман є співзасновником і керуючим партнером і заснував свою венчурну компанію в 2017 році. Перший фонд інвестував 20 мільйонів доларів США в 14 компаній. Однією з їхніх інвестицій була компанія Innoviz, яка стала публічною через злиття SPAC у 2018 році та стала єдинорогом LiDAR. Під керівництвом Омера Кейлафа (який походив із технологічного підрозділу Корпусу розвідки Армії оборони Ізраїлю), сьогодні компанія є лідером у розгортанні LiDAR для ADAS і AV, з багатьма перемогами в дизайні BMW і Volkswagen.

Другий фонд Champel Capital (Impact Deep Tech Fund II) був започаткований у січні 2022 року та на сьогоднішній день залучив 30 мільйонів доларів (ціль – 100 мільйонів доларів до кінця 2022 року). Переважна увага приділяється комп’ютерному зору, у п’ятьох компаніях інвестовано 12 мільйонів доларів. Три з них використовують комп’ютерний зір для транспортування та робототехніки.

ТанкУ, розташована в Хайфі, розпочала діяльність у 2018 році та залучила 10 мільйонів доларів США фінансування. Ден Вальдхорн є генеральним директором і є випускником підрозділу 8200, елітної високотехнологічної групи ізраїльських сил оборони, яка відповідає за сигнальну розвідку та дешифрування коду. Продукти TankU SaaS (Програмне забезпечення як послуга) автоматизують і захищають процеси в складних зовнішніх середовищах, обслуговуючи транспортні засоби та водіїв. Ці продукти використовуються власниками автопарків, приватних автомобілів, заправок і електрозарядних станцій для запобігання крадіжкам і шахрайству в автоматизованих фінансових операціях. Послуги з палива для транспортних засобів приносять приблизно 2 трильйони доларів США світового доходу щорічно, з яких власники приватних і комерційних автопарків споживають 40% або 800 мільярдів доларів США. Роздрібні продавці та власники автопарків щорічно втрачають ~100 мільярдів доларів через крадіжки та шахрайство (наприклад, використання паливної картки автопарку для неавторизованих приватних транспортних засобів). Шахрайство CNP (картка відсутня) і підробка/викрадення пального є додатковими джерелами втрат, особливо під час використання даних викраденої картки в мобільних додатках для платежів.

РЕКЛАМА

Продукт компанії TUfuel полегшує безпечні платежі одним дотиком, блокує більшість типів шахрайства та сповіщає клієнтів, коли він підозрює шахрайство. Він робить це на основі механізму штучного інтелекту, навченого на даних із наявних систем відеоспостереження на цих об’єктах і даних цифрових транзакцій (включно з POS та іншими внутрішніми даними). Такі параметри, як траєкторія та динаміка транспортного засобу, ідентифікаційний номер транспортного засобу, час у дорозі, пробіг, час заправки, кількість палива, історія палива та поведінка водія, є деякими атрибутами, які відстежуються для виявлення шахрайства. Ці дані також допомагають роздрібним торговцям оптимізувати роботу сайту, підвищити лояльність клієнтів і розгорнути маркетингові інструменти на основі бачення. За словами генерального директора Дена Вальдхорна, їхнє рішення виявляє 70% випадків шахрайства, пов’язаного з парком, 90% кредитних карток і 70% випадків шахрайства.

Сонол – це енергетична компанія, яка володіє та керує мережею з 240 станцій і магазинів по всьому Ізраїлю. TUfuel розгорнуто на їхніх сайтах і продемонструвало підвищену безпеку, запобігання шахрайству та лояльність клієнтів. Випробування продукту тривають у США у співпраці з провідним світовим постачальником обладнання для автозаправних станцій і магазинів. Подібні ініціативи також здійснюються в Африці та Європі.

РЕКЛАМА

Базується в Тель-Авіві ITC була заснована в 2019 році вченими машинного навчання з Університету Бен-Гуріона. ITC створює продукти SaaS, які «вимірюйте потік транспорту, прогнозуйте затори та зменшуйте їх за допомогою розумних маніпуляцій світлофорами — до того, як почнуть утворюватися затори». Подібно до TankU, він використовує дані з готових камер (вже встановлених на численних транспортних розв’язках) для отримання реальних даних про дорожній рух. Дані з тисяч камер по місту аналізуються, а такі параметри, як тип транспортного засобу, швидкість, напрямок руху та послідовність типів транспортних засобів (вантажівки проти легкових автомобілів), витягуються за допомогою власних алгоритмів ШІ. Симуляції передбачають транспортні потоки та потенційні затори до 30 хвилин наперед. Світлофори налаштовуються на основі цих результатів, щоб згладити рух транспорту та уникнути заторів.

Навчання системи штучного інтелекту займає один місяць візуальних даних у типовому місті та передбачає поєднання навчання під наглядом і без нагляду. Рішення ITC уже розгорнуто в Тель-Авіві (посідає 25 місце в рейтингу найбільш завантажених міст світу в 2020 році), з тисячами камер, розміщених на сотнях перехресть, контрольованих світлофорами. Наразі система ITC керує 75 тисячами транспортних засобів, і очікується, що їх кількість продовжить зростати. Компанія встановлює a аналогічна здатність в Люксембург і починає випробування у великих містах США. У всьому світі його рішення керує 300,000 XNUMX транспортними засобами з офісами в Ізраїлі, США, Бразилії та Австралії. Двір Кеніг, технічний директор, прагне вирішити цю проблему – повернути людям особистий час, зменшити викиди парникових газів, підвищити загальну продуктивність і, що найважливіше, зменшити кількість аварій на перевантажених перехрестях. За словами пана Кеніга, «Наші розгортання демонструють зменшення заторів на 30%, зменшення непродуктивного часу водіння, стресу, споживання палива та забруднення».

РЕКЛАМА

Робототехніка в приміщенні було заснована в 2018 та нещодавно зібрали 18 млн доларів фінансування. Компанія, розташована неподалік від Тель-Авіва, Ізраїль, розробляє та продає рішення для автономних безпілотників для внутрішньої безпеки, безпеки та моніторингу технічного обслуговування. Генеральний директор і співзасновник Дорон Бен-Девід має значний досвід робототехніки та аеронавтики, накопичений в IAIIAI
(великий оборонний головний підрядник) і MAFAT (передова дослідницька організація в Міністерстві оборони Ізраїлю), яка схожа на DARPA у Сполучених Штатах. Зростаючі інвестиції в розумні будівлі та ринки комерційної безпеки підживлюють потребу в автономних системах, які можуть використовувати комп’ютерне бачення та інші сенсорні дані в малих і великих внутрішніх комерційних приміщеннях (офіси, центри обробки даних, склади та торгові приміщення). Indoor Robotics орієнтується на цей ринок, використовуючи дрони для приміщень, оснащені стандартними камерами та датчиками теплового та інфрачервоного діапазону.

Офір Бар-Левав є головним комерційним директором. Він пояснює, що відсутність GPS заважає дронам для приміщень локалізувати себе всередині будівель (зазвичай GPS відмовляється або є неточним). Крім того, не вистачало зручних і ефективних рішень для підключення та живлення. Indoor Robotics вирішує це за допомогою чотирьох встановлених на дронах камер (угорі, внизу, ліворуч, праворуч) і простих датчиків дальності, які точно відображають внутрішній простір і його вміст. Дані камери (камери надають дані локалізації та картографування) і термодатчики (також встановлені на дроні) аналізуються системою ШІ, щоб виявити потенційні проблеми з безпекою, безпекою та обслуговуванням і попередити клієнта. Безпілотники живляться через встановлену на стелі «стикувальну плитку», яка економить дорогоцінний простір і дозволяє збирати дані під час заряджання. Фінансові переваги автоматизації цих повсякденних процесів, де людська праця є складною та дорогою з точки зору найму, утримання та навчання, очевидні. Використання повітряних дронів порівняно з наземними роботами також має значні переваги з точки зору капітальних і експлуатаційних витрат, кращого використання площі, свободи пересування без перешкод і ефективності захоплення даних камери. За словами пана Бар-Левава, до 80 року загальний ринок інтелектуальних систем безпеки для приміщень Indoor Robotics TAM (Total Addressable Market) становитиме 2026 мільярдів доларів США. Сьогодні ключові клієнтські місця включають склади, центри обробки даних та офісні містечка провідних світових корпорацій.

РЕКЛАМА


Комп’ютерне бачення робить революцію в грі автономії – в автоматизації руху, безпеці, моніторингу розумних будівель, виявленні шахрайства та управлінні трафіком. Потужність напівпровідників і штучного інтелекту є потужними факторами. Щойно комп’ютери оволодіють цією неймовірною сенсорною модальністю масштабованим способом, можливості стануть безмежними.

Джерело: https://www.forbes.com/sites/sabbirrangwala/2022/10/04/advances-in-computer-vision-propel-transportation-autonomy/