ChatGPT V4 перевершує планку, SAT і може ідентифікувати експлойти в контрактах ETH

GPT-4, остання версія чат-бота зі штучним інтелектом (ШІ), ChatGPT, може складати іспити в середній школі та іспити з юридичного факультету з оцінками в 90-му процентилі та має нові можливості обробки, які були недоступні в попередній версії.

Цифри результатів тестування GPT-4 були оприлюднені 14 березня його творцем OpenAI, показавши, що він також може перетворювати вхідні зображення, аудіо та відео в текст на додаток до обробки «набагато більш нюансованих інструкцій» більш креативно та надійно.

«Він здає симуляцію адвокатського іспиту, набравши приблизно 10% найкращих учасників», — додав OpenAI. «Натомість оцінка GPT-3.5 була близько нижчих 10%».

Цифри показують, що GPT-4 досяг 163 балів у 88-му процентилі на іспиті LSAT — іспит студенти коледжу повинні скласти в Сполучених Штатах, щоб бути прийнятими на юридичний факультет.

*Результати іспитів GPT-4 і GPT-3.5 на ряді останніх іспитів у США. Джерело:* *OpenAI*

Оцінка GPT4 дасть їй хороші умови для вступу до 20 найкращих юридичних шкіл, і лише на кілька балів менше заявлених балів, необхідних для вступу до престижних шкіл, таких як Гарвард, Стенфорд, Прінстон чи Єль.

Попередня версія ChatGPT набрала лише 149 балів на LSAT, помістивши її в нижні 40%.

GPT-4 також отримав 298 балів із 400 на Єдиному іспиті адвоката — іспиті, який складають нещодавно закінчені студенти юридичного факультету, що дозволяє їм працювати юристом у будь-якій юрисдикції США.

*Щоб отримати право на юридичну практику в кожній юрисдикції США, потрібні були результати UBE. Джерело:* *Національна конференція адвокатських екзаменаторів*

Стара версія ChatGPT виявилася поганою в цьому тесті, опинившись у нижніх 10% із результатом 213 із 400.

Що стосується іспитів SAT Evidence-Based Reading & Writing та SAT Math, які складали учні середньої школи США для оцінки їхньої готовності до вступу в коледж, GPT-4 набрав 93-й і 89-й процентиль відповідно.

GPT-4 також відзначився у «важких» науках, опублікувавши значно вище середнього процентиля з біології (85-100%), хімії (71-88%) і фізики 2 (66-84%).

*Результати іспитів GPT-4 і GPT-3.5 на ряді останніх іспитів США.* *Джерело: OpenAI.*

Однак його оцінка AP Calculus була досить середньою, займаючи від 43-го до 59-го процентиля.

Іншою сферою, де не вистачало GPT-4, були іспити з англійської літератури, які виставляли бали від 8 до 44 процентиля за два окремі тести.

OpenAI повідомила, що GPT-4 і GPT-3.5 взяли ці тести з практичних іспитів 2022-2023 років, і що інструменти обробки мови не проходили «спеціального навчання»:

«Ми не проводили спеціальної підготовки до цих іспитів. Меншість проблем на іспитах модель побачила під час навчання, але ми вважаємо результати репрезентативними».

Результати також викликали страх у спільноті Twitter.

За темою: Як ChatGPT вплине на простір Web3? Відповіді промисловості

Нік Алмонд, засновник FactoryDAO сказав його 14,300 14 підписників у Twitter 4 березня, що GPTXNUMX збирається «налякати людей» і «зруйнує» глобальну систему освіти.

Теорія оцінювання була значною частиною мого життя протягом кількох років. Я думав про цей день багато років тому. У той час я буквально звучав як ординарець.
Але… насправді це означає, що з цього моменту все, крім контрольованого оцінювання, закінчилося.
— drnick ️² (@DrNickA) Березня 14, 2023

Колишній директор Coinbase Конор Гроган сказав, що він вставив живий смарт-контракт Ethereum у GPT-4 і одразу вказав на кілька «вразливостей безпеки» та описав, як код можна використовувати:

Я скинув живий контракт Ethereum у GPT-4.
Миттєво він висвітлив низку вразливостей у безпеці та вказав на поверхні, де контракт може бути використаний. Потім він перевірив конкретний спосіб, яким я можу використовувати контракт pic.twitter.com/its5puakUW
— Конор (@jconorgrogan) Березня 14, 2023

Попередні аудити смарт-контрактів на ChatGPT показали, що його перша версія також була здатна виявляти помилки коду в розумній мірі.

Роуен Ченг, засновник інформаційного бюлетеня штучного інтелекту «The Rundown», поділився відео, на якому GPT транскрибує намальований від руки фейковий веб-сайт на аркуші паперу в код.

Я щойно спостерігав, як GPT-4 перетворює намальований від руки ескіз на функціональний веб-сайт.
Це божевільне. pic.twitter.com/P5nSjrk7Wn
— Rowan Cheung (@rowancheung) Березня 14, 2023