Що означає новий Text-To-3D від Nvidia для розробки та дизайну продуктів

ТЛ; ін: Generative AI розвивається надзвичайно швидко. Останній алгоритм від Nvidia перетворює текст у 3D-сітку вдвічі швидше, ніж проекти, опубліковані лише 2 місяці тому. Це означає, що зараз технічні можливості вже перевищують наші можливості з ними працювати.

Минулого тижня папір вчені Nvidia продемонстрували експоненціальну швидкість, з якою розвивається простір ШІ. Цей вибух активності – особливо помітний протягом останніх 9 місяців – матиме вплив на всі сфери життя, не в останню чергу на дизайн, розробку та виробництво продукції. Зміни звільнять галузь від структурних обмежень у способах передачі ідей, сприятимуть швидшим інноваційним циклам і, зрештою, дозволять їй реалізувати свої обіцянки сталого розвитку.

Оскільки роками говорили, що штучний інтелект кардинально змінить спосіб нашої роботи, мало хто очікував, що креативний сектор стане однією з його перших жертв. Поява людиноподібного текстового генератора GPT-3 у 2020 році привернула увагу до можливостей. Відтоді це була дика подорож: DALL-E (перетворення тексту в зображення), Whisper (розпізнавання мовлення) і нещодавно Stable Diffusion (перетворення тексту в зображення) не лише розширили можливості інструментів мовлення та візуального штучного інтелекту, але й зменшив ресурси, необхідні для їх використання (з 175 млрд параметрів для GPT-3 до 900 млн для стабільної дифузії).

Розмір Stable Diffusion означає менше 5 Гб дискового простору – його можна використовувати на будь-якому ноутбуці. Не тільки це; На відміну від OpenAI (який в основному фінансується Microsoft і публікує GPT-3, DALL-E і Whisper), Stable Diffusion є відкритим вихідним кодом, що означає, що інші можуть набагато легше використовувати його знання. Це означає, що ми бачимо лише початок інноваційного циклу – попереду ще багато чого, як показує стаття Nvidia.

Підтримувачі Stable Diffusion (stability.ai) ще більше посилюють цю тенденцію, надаючи технологічні та фінансові гранти іншим командам, які ведуть дослідження в нових напрямках. Крім того, безліч проектів робить інструменти доступними для все ширшого кола користувачів. Серед них плагіни для Blender, інструменту дизайну з відкритим вихідним кодом, і власний еквівалент Adobe Photoshop. Повний API-доступ до інструментів фінансується за рахунок значних доларів венчурного капіталу, а це означає, що сотні мільйонів розробників програмного забезпечення, а не лише кілька сотень тисяч інженерів обробки даних, тепер створюватимуть власні інструменти на основі цих алгоритмів.

Мова, зображення та текст є одними з перших вертикалей, які порушуються цими технологіями. Але 3D не відстає. Окрім нішевого генеративного мистецтва, мультфільми є очевидною першою точкою застосування. Уже існує генератор покемонів на основі Stable Diffusion. Далі йдуть візуальні ефекти та фільми. Але багато інших секторів, ймовірно, будуть порушені, серед них дизайн інтер’єру з Interiorai.com.

У всьому цьому хвилюванні застосування інновацій у дизайні та розробці здається запізнілою думкою. Проте, ймовірно, це буде територія, яка постраждає найбільше. Звичайно, є початкові проблеми: наприклад, Stable Diffusion та його співвітчизники ще не дуже точні. Це не проблема для мультфільмів, але це серйозна проблема для будь-якої спроби перетворити текст у повну 3D-геометрію, що використовується в промислових умовах. Це сфера, яка мала певний інтерес (проект під назвою Bits101 був запущений в Ізраїлі в 2015 році). Це може бути святим Граалем галузі, але є багато проміжних проблем, які може бути набагато легше вирішити. Серед них покращене розпізнавання об’єктів (алгоритм Yolo вже використовується з великим ефектом), що призведе до покращеного цитування та анотації – покращення якості та зменшення помилок. Плагіни також мають спростити використання Generative AI для розробки базових дизайнів (примітивів), які потім можна редагувати в інструментах дизайну для покращення толерантності відповідно до вимог. Це підхід, який уже використовувався в Altair's Inspire, який використовував аналіз кінцевих елементів для того ж. Ці примітиви також можуть служити синтетичною базою даних анотованих моделей, яких у галузі 3D САПР бракує. Генеральний директор і засновник Physna вказує на це в статті детально описуючи власні спроби використати ці нові методи для створення детальних 3D-дизайнів, що також висвітлює низку підводних каменів у використанні синтетичних даних для керування цими алгоритмами. Створення 3D-дизайнів із 2D-малюнків є ще однією потенційною сферою застосування, як і інтелектуальна CAM – живлення від бібліотека зносу інструменту для визначення найкращих стратегій обробки.

Ці виклики є важливими й прибутковими для вирішення самих по собі. І все ж їхній головний вплив полягатиме в тому, щоб допомогти розвинути шлях від ідеї до дизайну, зрештою зменшивши залежність від 3D-проектів для передачі намірів. Проекти, двовимірні чи тривимірні, слугували основним засобом перетворення потреб клієнтів у кінцеві продукти. Це обмежує галузь, оскільки ці проекти служать чорною скринькою, в якій зберігаються всі ті цінні відомості про клієнтів, виробничі обмеження та цілі компанії, які неможливо розібрати, але їх можна ідентифікувати. Це означає, що коли щось змінюється, просто скорегувати дизайн практично неможливо. Саме тому такі виробничі інновації, як 2D-друк, потребують так багато часу, щоб прийняти їх і постійно розчаровувати короткострокових інвесторів. Компоненти, з яких складається літальний апарат, «встановлюються» з моменту їх розробки, незважаючи на продуктивний термін служби понад 3 років. Майже немає інновацій – вони повинні чекати на запуск наступного покоління.

Можливість змінити єдине обмеження та дозволити такому алгоритму, як Stable Diffusion, відновити параметри дизайну та виробництва, значно пришвидшить впровадження нових інновацій і дозволить нам швидше створювати легші та ефективніші продукти. Як це роблять у Формулі 1 або проектуванні систем, майбутні інженери діятимуть як менеджери обмежень, здатні виразити словами та посиланнями на джерела даних, які цілі та обмеження продукту.

Без прискорення процесу розробки нових і існуючих продуктів таким чином у нас майже немає засобів для досягнення амбітних цілей сталого розвитку, які ми повинні поставити перед собою. Щоб зробити це, ми повинні спочатку домовитися про мову, яку ми можемо використовувати для спілкування поза межами дизайну. Ця нова семантична модель є очевидною прогалиною в інноваціях, окреслених вище. Деякі компанії вже почали експериментувати з цим, наприклад nТопологія з її поняттями полів. І все ж темп змін повільний, на відміну від алгоритмів, які живить семантична модель. Як повідомляється, новий алгоритм Nvidia удвічі швидший, ніж DreamFusion, опубліковано менше 2 місяців тому. Компанії, що займаються виробництвом продукції та розробкою, мають працювати над втіленням своїх ідей у ​​нові, перспективні способи вже зараз, щоб максимально використати можливості, які відкриває цей вибух генеративного ШІ. Швидкість змін в алгоритмах ще раз показала, що закон Морзе застосовується скрізь, де інструменти оцифровуються. Проблемою залишається наша людська неспроможність сприйняти ці зміни та розгорнути нові методи комунікації, здатні розкрити їхній потенціал, незважаючи на терміновість завдання.

Джерело: https://www.forbes.com/sites/andrewegner/2022/11/24/what-nvidias-new-text-to-3d-means-for-engineering–product-design/