Юридичний судний день для Generative AI ChatGPT, якщо його спіймають на плагіаті або порушенні прав, попереджає про етику та законодавство щодо штучного інтелекту

Чи генеративний штучний інтелект, такий як ChatGPT, викрадає наші веб-сайти та контент, розроблений людьми? Будьте свідомі, будьте … [+] засмучений, будь готовий.

getty

Дайте кредит там, де кредит належить.

Це трохи мудрої мудрості, у яку ви, можливо, виховувалися, щоб твердо вірити. Дійсно, можна припустити або уявити, що ми всі можемо певною мірою погодитися, що це справедливе та розумне правило в житті. Коли хтось робить щось, що заслуговує визнання, подбайте про те, щоб вони отримали заслужене визнання.

Протилежна точка зору здавалася б набагато менш переконливою.

Якби хтось ходив і наполягав, що кредит повинен НЕ бути визнаним, коли настане термін погашення кредиту, ви можете стверджувати, що таке переконання є неввічливим і, можливо, підступним. Ми часто виявляємо, що кричить, коли хтось, хто досяг чогось помітного, обманюють кредити. Насмілюся сказати, що ми особливо неприхильно ставимося до того, коли інші помилково приписують собі заслуги за роботу інших. Це тривожний подвійний удар. Особа, яка повинна була отримати кредит, позбавлена можливості побути на сонці. Крім того, шахрай насолоджується центром уваги, хоча він помилково обманює нас, щоб ми привласнили наші прихильності.

Навіщо всі ці розмови про отримання кредиту найправильнішими способами та уникнення неправильних і зневажливих способів?

Тому що, схоже, ми стикаємося з подібною скрутою, коли мова заходить про останні розробки штучного інтелекту (ШІ).

Так, стверджується, що це очевидно відбувається через тип ШІ, відомий як Генеративний ШІ. Існує багато зловживань, що Generative AI, найпопулярніший штучний інтелект у новинах на сьогоднішній день, уже приписав собі заслуги за те, за що він не заслуговує приписувати. І це, швидше за все, погіршуватиметься, оскільки генеративний ШІ буде все більше розширюватися та використовуватися. Все більше і більше заслуг надає генеративному штучному інтелекту, тоді як, на жаль, ті, хто заслуговує справжньої заслуги, залишаються в пилу.

Запропонований мною спосіб чітко позначити це ймовірне явище за допомогою двох яскравих крилатих фраз:

1) Масштабний плагіат
2) Масштабне порушення авторських прав

Я припускаю, що ви можете знати про генеративний штучний інтелект завдяки широко популярному додатку штучного інтелекту, відомому як ChatGPT, який був випущений у листопаді компанією OpenAI. Незабаром я розповім більше про генеративний ШІ та ChatGPT. Тримайся там.

Давайте відразу перейдемо до суті того, що, так би мовити, залучає людей.

Деякі палко скаржаться, що генеративний ШІ потенційно обкрадає людей, які створили контент. Розумієте, більшість генеративних програм штучного інтелекту – це дані, навчені шляхом аналізу даних, знайдених в Інтернеті. На основі цих даних алгоритми можуть відточити велику внутрішню мережу зіставлення шаблонів у програмі штучного інтелекту, яка згодом може створювати, здавалося б, новий контент, який дивовижно виглядає так, ніби він був створений рукою людини, а не частиною автоматизації.

Це чудове досягнення великою мірою завдяки використанню відсканованого в Інтернеті вмісту. Без обсягу та багатства Інтернет-контенту як джерела для навчання даних генеративний штучний інтелект був би практично порожнім і не представляв би особливого інтересу для використання. Завдяки тому, що штучний інтелект перевіряє мільйони і мільйони онлайн-документів і тексту разом із усіма видами пов’язаного вмісту, система зіставлення шаблонів поступово виводиться, щоб спробувати імітувати створений людьми вміст.

Чим більше вмісту досліджується, тим більше шансів, що відповідність шаблонів буде більш відточеною та ще кращою у мімікрії, за інших рівних умов.

Ось питання на мільйон доларів:

Велике питання: Якщо ви або інші маєте вміст в Інтернеті, на якому навчали якусь генеративну програму штучного інтелекту, роблячи це, імовірно, без вашого прямого дозволу та, можливо, зовсім без вашого відома, чи маєте ви право на шматок пирога щодо будь-якої цінності, що виникає з що генеративне навчання даних ШІ?

Деякі рішуче стверджують, що єдина правильна відповідь Так, особливо те, що ці творці людського вмісту справді заслуговують на свою частину дії. Справа в тому, що вам буде важко знайти когось, хто отримав би свою справедливу частку, і що ще гірше, майже ніхто не отримав жодної частки. Творці Інтернет-контенту, які мимоволі та несвідомо зробили свій внесок, по суті, позбавлені належної заслуги.

Це можна охарактеризувати як жорстоке та обурливе. Ми щойно розповіли мудру мудрість про те, що треба віддавати належне там, де це належить. У випадку з генеративним ШІ, мабуть, не так. Здається, давнє й доброчесне емпіричне правило щодо кредиту грубо порушується.

Ого, звучить репліка, ви повністю перебільшуєте та спотворюєте ситуацію. Звичайно, генеративний штучний інтелект досліджував контент в Інтернеті. Звичайно, це було дуже корисно як частина навчання даних генеративного ШІ. Слід визнати, що вражаючі генеративні додатки ШІ сьогодні не були б такими вражаючими без цього продуманого підходу. Але ви зайшли надто далеко, коли сказали, що творцям вмісту слід віддати будь-яку подібність кредиту.

Логіка полягає в наступному. Люди виходять в Інтернет і дізнаються про нього що-небудь, роблячи це регулярно і без будь-якої суєти. Людина, яка читає блоги про сантехніку, а потім дивиться безкоштовні відео про ремонт сантехніки, може наступного дня піти працювати сантехніком. Чи потрібно їм віддавати частину свого грошового переказу, пов’язаного з сантехнікою, блогеру, який писав про те, як поставити раковину? Чи потрібно їм платити відеоблогеру, який зробив відео, у якому демонструється кроки, як полагодити діряву ванну?

Майже точно не.

Навчання даних генеративного ШІ є лише засобом розробки шаблонів. Поки результати генеративного штучного інтелекту не є просто регургітацією саме того, що було вивчено, ви можете переконливо стверджувати, що вони «навчилися» і тому не підлягають наданню будь-якої конкретної заслуги будь-якому конкретному джерелу. Якщо ви не можете вловити генеративний ШІ у виконанні точної регургітації, ознаки свідчать про те, що ШІ вийшов за межі будь-якого конкретного джерела.

Кредит нікому не належить. Або, припустимо, можна сказати, що заслуга належить усім. Колективний текст та інший вміст людства, який знаходиться в Інтернеті, отримує кредит. Ми всі отримуємо кредит. Намагатися визначити причетність до певного джерела безглуздо. Радійте тому, що штучний інтелект розвивається і що людство від цього виграє. Ці дописи в Інтернеті повинні відчувати честь за те, що вони внесли свій внесок у майбутнє прогресу ШІ та те, як це допоможе людству вічно.

Я хочу більше сказати про обидва ці протилежні погляди.

У той же час, чи схиляєтеся ви до табору, який каже, що заслуги належні та із запізненням для тих, хто має веб-сайти в Інтернеті, чи ви вважаєте, що протилежна сторона, яка каже, що творці Інтернет-контенту рішуче НЕ бути обдуреним - це більш переконлива поза?

Загадка і загадка злилися разом.

Давайте розпакуємо це.

У сьогоднішній колонці я розповім про ці висловлені занепокоєння щодо того, що генеративний штучний інтелект по суті є плагіатом або, можливо, порушує авторські права на вміст, опублікований в Інтернеті (вважається правом інтелектуальної власності або проблемою інтелектуальної власності). Ми розглянемо основу цих сумнівів. Під час цієї дискусії я час від часу згадуватиму ChatGPT, оскільки це 600-фунтова горила генеративного штучного інтелекту, хоча майте на увазі, що існує багато інших програм генеративного штучного інтелекту, і вони, як правило, базуються на тих же загальних принципах.

Тим часом ви можете задатися питанням, що таке генеративний ШІ.

Давайте спочатку розглянемо основи генеративного штучного інтелекту, а потім ми зможемо уважно розібратися в актуальній справі.

До всього цього входить низка міркувань етики штучного інтелекту та законодавства щодо штучного інтелекту.

Будь ласка, зверніть увагу, що тривають зусилля з впровадження етичних принципів штучного інтелекту в розробку та впровадження програм ШІ. Зростаючий контингент занепокоєних і колишніх етиків штучного інтелекту намагається переконатися, що зусилля з розробки та впровадження ШІ враховують точку зору ШІ для добра і запобігання ШІ для поганого. Подібним чином пропонуються нові закони про штучний інтелект, які розглядаються як потенційні рішення для запобігання спробам штучного інтелекту порушувати права людини тощо. Про те, як я постійно висвітлюю етику штучного інтелекту та право штучного інтелекту, див посилання тут та посилання тут, просто назвемо декілька.

Розробка та оприлюднення етичних принципів штучного інтелекту триває, щоб, як ми сподіваємося, запобігти потраплянню суспільства в безліч пасток, що викликають штучний інтелект. Щодо мого висвітлення принципів етики штучного інтелекту ООН, розроблених і підтриманих майже 200 країнами завдяки зусиллям ЮНЕСКО, див. посилання тут. Подібним чином досліджуються нові закони щодо штучного інтелекту, щоб спробувати підтримувати ШІ на рівному рівні. Один із останніх дублів складається з набору запропонованих Білль про права AI що Білий дім США нещодавно опублікував для визначення прав людини в епоху ШІ, див посилання тут. Потрібне село, щоб підтримувати ШІ та розробників ШІ на правильному шляху та стримувати цілеспрямовані чи випадкові підступні зусилля, які можуть підірвати суспільство.

У цю дискусію я буду переплітати міркування, пов’язані з етикою штучного інтелекту та законодавством щодо штучного інтелекту.

Основи генеративного ШІ

Найбільш відомий приклад генеративного штучного інтелекту представлений програмою штучного інтелекту під назвою ChatGPT. ChatGPT з’явився у громадській свідомості ще в листопаді, коли він був випущений дослідницькою компанією OpenAI. Відтоді як ChatGPT зібрав величезні заголовки та напрочуд перевищив відведені йому п’ятнадцять хвилин слави.

Я припускаю, що ви, напевно, чули про ChatGPT або, можливо, навіть знаєте когось, хто ним користувався.

ChatGPT вважається генеративною програмою штучного інтелекту, оскільки вона вводить деякий текст від користувача, а потім генерує або дає результат, який складається з есе. ШІ — це генератор тексту в текст, хоча я описую ШІ як генератор тексту в есе, оскільки це легше пояснює, для чого він зазвичай використовується. Ви можете використовувати генеративний штучний інтелект для створення довгих композицій або ви можете змусити його пропонувати досить короткі змістовні коментарі. Це все за вашим бажанням.

Все, що вам потрібно зробити, це ввести підказку, і програма AI згенерує для вас есе, яке намагатиметься відповісти на вашу підказку. Складений текст буде здаватися, ніби твір написано людською рукою і розумом. Якщо ви введете підказку «Розкажіть мені про Авраама Лінкольна», генеративний ШІ надасть вам есе про Лінкольна. Існують інші режими генеративного штучного інтелекту, такі як перетворення тексту в зображення та перетворення тексту у відео. Тут я зосереджусь на варіації тексту в текст.

Вашою першою думкою може бути те, що ця генеративна здатність не виглядає такою великою проблемою з точки зору створення есе. Ви можете легко здійснити онлайн-пошук в Інтернеті та легко знайти тонни й тонни есе про президента Лінкольна. Головна перевага генеративного штучного інтелекту полягає в тому, що згенероване есе є відносно унікальним і забезпечує оригінальну композицію, а не копію. Якби ви спробували десь знайти есе, створене штучним інтелектом, в Інтернеті, ви б навряд чи його знайшли.

Генеративний штучний інтелект попередньо навчений і використовує складну математичну та обчислювальну формулу, яка була створена шляхом вивчення шаблонів у написаних словах та історіях у мережі. У результаті вивчення тисяч і мільйонів письмових уривків ШІ може викинути нові есе та історії, які є сумішшю знайденого. Завдяки додаванню різних ймовірнісних функціональних можливостей отриманий текст є майже унікальним у порівнянні з тим, що використовувалося в навчальному наборі.

Існує багато проблем щодо генеративного ШІ.

Одним із суттєвих недоліків є те, що есе, створені програмою генеративного штучного інтелекту, можуть містити різні неправдиві факти, включаючи явно неправдиві факти, факти, які вводять в оману, і очевидні факти, які повністю сфабриковані. Ці сфабриковані аспекти часто називають формою ШІ галюцинації, крилата фраза, яку я не люблю, але, на жаль, здається, все одно набуває популярності (щоб отримати моє детальне пояснення, чому це паршива та невідповідна термінологія, перегляньте мій репортаж на посилання тут).

Інше занепокоєння полягає в тому, що люди можуть легко взяти на себе заслугу генеративного есе, створеного штучним інтелектом, незважаючи на те, що вони не написали есе самостійно. Можливо, ви чули, що вчителі та школи дуже стурбовані появою генеративних програм ШІ. Студенти потенційно можуть використовувати генеративний ШІ для написання своїх есе. Якщо учень стверджує, що есе було написано його власноруч, мало ймовірно, що вчитель зможе визначити, чи не було воно підроблено генеративним ШІ. Для мого аналізу цього незрозумілого для студентів і викладачів аспекту дивіться мій матеріал на сторінці посилання тут та посилання тут.

У соціальних мережах з’явилося кілька дивних заяв про те, що Генеративний ШІ стверджуючи, що ця остання версія ШІ насправді розумний ШІ (ні, вони помиляються!). Ті, хто займається етикою штучного інтелекту та правом штучного інтелекту, особливо стурбовані цією зростаючою тенденцією розкритих претензій. Ви можете ввічливо сказати, що деякі люди перебільшують те, що насправді може зробити сьогоднішній ШІ. Вони припускають, що штучний інтелект має можливості, яких ми ще не змогли досягти. Це прикро. Що ще гірше, вони можуть дозволити собі та іншим потрапити в жахливу ситуацію через припущення, що штучний інтелект буде розумним або схожим на людину, здатним діяти.

Не антропоморфізуйте ШІ.

Це призведе до того, що ви потрапите в липку та сувору пастку очікування від ШІ того, що він не в змозі виконати. Зважаючи на це, останній генеративний штучний інтелект відносно вражає своїми можливостями. Однак майте на увазі, що існують значні обмеження, про які ви повинні постійно пам’ятати, використовуючи будь-який генеративний додаток AI.

Наразі останнє попередження.

Що б ви не побачили чи прочитали у генеративній відповіді ШІ Здається, передаватися як суто факти (дати, місця, люди тощо), переконайтеся, що залишаєтесь скептичними та будьте готові ще раз перевірити те, що ви бачите.

Так, дати можна вигадувати, місця можна вигадувати, а елементи, які ми зазвичай очікуємо, будуть бездоганними. всі підлягає підозрам. Не вірте тому, що ви читаєте, і будьте скептичними, досліджуючи будь-які генеративні есе чи результати ШІ. Якщо генеративний AI-додаток скаже вам, що Авраам Лінкольн облетів країну на своєму приватному літаку, ви, безсумнівно, зрозумієте, що це неприємність. На жаль, деякі люди можуть не усвідомлювати, що реактивних літаків не було в його часи, або вони можуть знати, але не помічати, що в есе робиться це нахабне та обурливо хибне твердження.

Велика доза здорового скептицизму та постійне недовір’я стануть вашим найкращим активом при використанні генеративного ШІ.

Ми готові перейти до наступного етапу цього з’ясування.

Інтернет і Generative AI – це разом

Тепер, коли у вас є уявлення про те, що таке генеративний ШІ, ми можемо дослідити хвилююче питання про те, чи справедливо чи несправедливо генеративний ШІ «використовує», або хтось сказав би відверто експлуатація Інтернет-контент.

Ось мої чотири важливі теми, що стосуються цього питання:

1) Подвійна проблема: плагіат і порушення авторських прав
2) Спроба довести плагіат або порушення авторських прав буде спробою
3) Обвинувачення в плагіаті чи порушенні авторських прав
4) Легальні наземні міни чекають

Я розповім про кожну з цих важливих тем і запропоную глибокі міркування, над якими ми всі повинні уважно поміркувати. Кожна з цих тем є невід’ємною частиною більшої головоломки. Ви не можете дивитися лише на один твір. Ви також не можете розглядати жодну частину окремо від інших частин.

Це складна мозаїка, і вся головоломка повинна бути розглянута належним чином гармонійно.

Подвійна проблема: плагіат і порушення авторських прав

Подвійна проблема, з якою стикаються ті, хто створює генеративний штучний інтелект, полягає в тому, що їхні продукти можуть робити дві погані речі:

1) Плагіат. Генеративний ШІ можна тлумачити як плагіат вміст, який існує в Інтернеті згідно з Інтернет-скануванням, яке відбулося під час навчання даних ШІ.
2) Порушення авторських прав. Генеративний ШІ можна назвати підприємством порушення авторських прав пов’язаний із вмістом Інтернету, який було проскановано під час навчання даних.

Щоб уточнити, в Інтернеті набагато більше вмісту, ніж зазвичай сканується для навчання даних генеративного ШІ. Зазвичай використовується лише невелика частина Інтернету. Таким чином, ми можемо припустити, що будь-який вміст, який не було відскановано під час навчання даних, не має особливого впливу на генеративний ШІ.

Хоча це дещо спірно, оскільки ви потенційно можете намалювати лінію, яка з’єднує інший вміст, який було відскановано, з вмістом, який не було відскановано. Крім того, ще одне важливе застереження полягає в тому, що навіть якщо є вміст, який не було відскановано, його все одно можна стверджувати як плагіат та/або порушення авторських прав, якщо результати генеративного штучного інтелекту, можливо, потраплять на те саме словосполучення. Я хочу сказати, що у всьому цьому є багато хлюпання.

Підсумок: Генеративний штучний інтелект сповнений потенційних юридичних проблем щодо етики штучного інтелекту та законодавства щодо штучного інтелекту, коли йдеться про плагіат і порушення авторських прав підтримуючи переважаючі практики навчання даних.

Наразі розробники штучного інтелекту та дослідники штучного інтелекту пройшли через це практично без проблем, незважаючи на загрозливий і ненадійно звисаючий меч, який висить над ними. На сьогоднішній день проти цих практик було розпочато лише кілька судових процесів. Можливо, ви чули або бачили новинні статті про такі судові дії. Один, наприклад, залучає фірми Midjourney і Stability AI, що займаються перетворенням тексту в зображення, за порушення авторських прав на художній вміст, розміщений в Інтернеті. Інша пов’язана з порушенням прав на перетворення тексту в код проти GitHub, Microsoft і OpenAI через програмне забезпечення Copilot, яке створює програми ШІ. Getty Images також прагнув переслідувати Stability AI за порушення прав на перетворення тексту в зображення.

Ви можете передбачити, що буде подано більше таких позовів.

Наразі порушувати ці судові процеси є певним шансом, оскільки результат відносно невідомий. Чи буде суд на боці розробників штучного інтелекту чи переможцями стануть ті, хто вважає, що їхній контент був використаний несправедливо? Дорога судова битва – це завжди серйозна справа. Витрати великих судових витрат слід порівнювати з шансами виграти чи програшу.

Здавалося б, у виробників штучного інтелекту майже немає вибору, окрім як боротися. Якщо вони хоч трохи поступляться, велика ймовірність того, що це призведе до потоку додаткових судових позовів (по суті, відкривши двері для підвищених шансів інших також переважати). Як тільки у воді з’явиться законна кров, решта законних акул помчать до «легкого результату», і неодмінно станеться жахлива грошова кровопролиття.

Дехто вважає, що ми повинні прийняти нові закони про штучний інтелект, які б захищали виробників штучного інтелекту. Захист може мати навіть зворотну дію. Основою для цього є те, що якщо ми хочемо побачити генеративний прогрес штучного інтелекту, ми повинні дати розробникам штучного інтелекту безпечну зону злітно-посадкової смуги. Коли судові процеси почнуть приносити перемоги проти виробників штучного інтелекту, якщо це станеться (ми ще не знаємо), занепокоєння полягає в тому, що генеративний штучний інтелект зникне, оскільки ніхто не захоче підтримувати фірми штучного інтелекту.

Як вміло вказано в нещодавній статті Bloomberg Law під назвою «ChatGPT: IP, кібербезпека та інші правові ризики генеративного штучного інтелекту» д-ра Іллі Колоченко та Гордона Платта, Bloomberg Law, лютий 2023 р., ось два важливі уривки, що повторюють ці точки зору:

«Серед американських вчених-юристів і професорів права інтелектуальної власності зараз точиться гаряча дискусія про те, чи є несанкціоноване копіювання та подальше використання захищених авторським правом даних порушенням авторських прав. Якщо точка зору практикуючих юристів, які бачать порушення авторських прав у такій практиці, переважить, користувачі таких систем штучного інтелекту також можуть нести відповідальність за вторинне порушення та потенційно зіткнутися з правовими наслідками».
«Щоб всебічно вирішити цю проблему, законодавці повинні розглянути не лише модернізацію існуючого законодавства про авторське право, але й імплементацію набору законів і правил, що стосуються ШІ».

Згадайте, що як суспільство ми запровадили правовий захист для розширення Інтернету, про що зараз свідчить перегляд Верховним судом відомого чи сумнозвісного Розділу 230. Таким чином, здається в рамках розумного та прецеденту, що ми можемо бути готові вжити певних подібних заходів захисту для розвитку генеративного ШІ. Можливо, захист можна налаштувати тимчасово, термін дії якого закінчується після того, як генеративний ШІ досягне деякого заздалегідь визначеного рівня кваліфікації. Можуть бути розроблені інші захисні положення.

Незабаром я опублікую свій аналіз того, як оцінка Верховного суду та остаточне рішення щодо розділу 230 можуть вплинути на появу генеративного ШІ. Будьте в курсі цієї майбутньої публікації!

Повернемося до різко висловленої думки про те, що ми повинні дати свободу дій для вражаючих суспільства технологічних інновацій, відомих як генеративний ШІ. Дехто сказав би, що навіть якщо заявлене порушення авторських прав має місце або має місце, суспільство в цілому повинно бути готовим дозволити це для конкретних цілей просування генеративного ШІ.

Є надія, що нові закони щодо штучного інтелекту будуть ретельно розроблені та налаштовані з урахуванням особливостей, пов’язаних із навчанням даних для генеративного штучного інтелекту.

Є багато контраргументів проти цієї ідеї розробки нових законів щодо ШІ для цієї мети. Одна з проблем полягає в тому, що будь-який такий новий закон про ШІ відкриє шлюзи для будь-яких порушень авторських прав. Ми будемо шкодувати про той день, коли ми дозволили таким новим законам ШІ опинитися в книгах. Незалежно від того, наскільки сильно ви намагаєтеся обмежити це лише навчанням даних штучного інтелекту, інші підступно чи спритно знайдуть лазівки, які означатимуть необмежене та нестримне порушення авторських прав.

Аргументи тривають.

Один аргумент, який не особливо витримує воду, пов’язаний із спробою подати до суду на сам ШІ. Зверніть увагу, що я називав виробника штучного інтелекту або дослідників ШІ винними зацікавленими сторонами. Це люди і компанії. Дехто припускає, що ми повинні орієнтуватися на ШІ як на сторону, проти якої буде подано позов. Я довго обговорював у своїй колонці, що ми ще не надаємо права юридичної особи штучному інтелекту посилання тут наприклад, і тому такі позови, спрямовані проти штучного інтелекту як такого, зараз будуть вважатися безглуздими.

Як додаток до питання про те, на кого або що слід судитися, це відкриває ще одну пікантну тему.

Припустімо, що якийсь виробник штучного інтелекту, якого ми назвемо Widget Company, створив певний генеративний додаток ШІ. Компанія Widget є відносно невеликою за розміром і не має великих доходів і активів. Судячи з ними, навряд чи можна отримати величезні багатства, яких можна прагнути. Щонайбільше, ви просто отримаєте задоволення від виправлення того, що вважаєте неправильним.

Ви хочете піти за великою рибою.

Ось як це виникне. Виробник штучного інтелекту вирішує зробити свій генеративний штучний інтелект доступним для Big Time Company, великого конгломерату з тоннами грошей і тоннами активів. Позов із назвою Widget Company тепер матиме кращу ціль, а саме також назву Big Time Company. Це бій Давида та Голіафа, який би сподобався юристам. Звичайно, компанія Big Time, безсумнівно, спробує зірватися з гачка. Чи зможуть вони це зробити, це знову ж таки юридичне питання, яке залишається невизначеним, і вони можуть безнадійно загрузнути в бруді.

Перш ніж ми зупинимося на цьому, я хотів би повідомити щось важливе про можливі посягання генеративного ШІ через навчання даних. Я впевнений, що ви інтуїтивно розумієте, що плагіат і порушення авторських прав — це дві дещо різні тварини. Вони мають багато спільного, хоча й суттєво відрізняються.

Ось зручний стислий опис від Університету Дьюка, який пояснює ці два:

«Плагіат найкраще визначити як невизнане використання роботи іншої людини. Це етичне питання, пов’язане з вимогою кредиту за роботу, яку позивач не створював. Можна сплагіатувати чужу роботу незалежно від статусу авторського права цієї роботи. Наприклад, плагіатом вважається копіювання з книги чи статті, які занадто старі, щоб на них ще діяло авторське право. Також плагіатом є використання даних, взятих із невідомого джерела, навіть якщо фактичний матеріал, як-от дані, може не бути захищеним авторським правом. Однак плагіат легко вилікувати – правильне посилання на першоджерело матеріалу».
«З іншого боку, порушення авторських прав — це несанкціоноване використання чужої роботи. Це юридичне питання, яке залежить від того, чи захищено твір авторським правом, а також від таких особливостей, як обсяг використання та мета використання. Якщо хтось копіює занадто багато захищеного твору або копіює з несанкціонованою метою, просте визнання першоджерела не вирішить проблему. Лише якщо отримати попередній дозвіл від власника авторських прав, можна уникнути ризику стягнення звинувачень за порушення».

Я вказую на важливість цих двох проблем, щоб ви зрозуміли, що засоби правового захисту можуть відрізнятися відповідно. Крім того, вони обидва заплутані міркуваннями, що пронизують етику штучного інтелекту та право штучного інтелекту, що робить їх однаково вартими вивчення.

Давайте розглянемо заявлений засіб або рішення. Ви побачите, що це може допомогти одній із подвійних проблем, але не допоможе іншій.

Деякі наполягають на тому, що виробники штучного інтелекту повинні лише цитувати свої джерела. Коли генеративний штучний інтелект створює есе, просто додайте конкретні цитати для того, що вказано в есе. Надайте різні URL-адреси та інші вказівки на те, який вміст Інтернету використовувався. Здавалося б, це звільнить їх від сумнівів щодо плагіату. Опублікований есе, імовірно, чітко визначає, які джерела були використані для виробленого формулювання.

У цьому заявленому рішенні є деякі причіпки, але, скажімо, на рівні 30,000 XNUMX футів це справді служить напівзадовільним ліком від дилеми плагіату. Як зазначено вище в поясненні щодо порушення авторських прав, посилання на вихідний матеріал не обов’язково виведе вас із будки. Якщо припустити, що вміст було захищено авторським правом, і залежно від інших факторів, наприклад, скільки матеріалу було використано, очікуваний меч порушення авторських прав може різко й остаточно хитнутися вниз.

Тут головне слово — подвійна проблема.

Спроба довести плагіат або порушення авторських прав буде важкою

Докажи це!

Це затертий рефрен, який ми всі чули в різні періоди свого життя.

Ви знаєте, як це відбувається. Ви можете стверджувати, що щось відбувається або сталося. У глибині душі ви можете знати, що це сталося. Але коли справа доходить до «поштовху проти штовхання», ви повинні мати докази.

Говорячи сьогоднішньою мовою, вам потрібно показати надходження, як кажуть.

Моє запитання до вас таке: Як ми збираємося доказово довести, що генеративний ШІ неналежним чином використовував Інтернет-контент?

Вважається, що відповідь має бути легкою. Ви просите або наказуєте генеруючому штучному інтелекту створити вихідний есе. Потім ви берете есе і порівнюєте його з тим, що можна знайти в Інтернеті. Якщо ви знайдете есе, бац, ви маєте генеративний ШІ, прибитий до стіни прислів’я.

Життя, здається, ніколи не було таким легким.

Уявіть собі, що ми отримаємо генеративний ШІ для створення есе, яке містить приблизно 100 слів. Ми ходимо і намагаємося охопити всі закутки Інтернету, шукаючи ці 100 слів. Якщо ми знаходимо 100 слів, показаних у тому самому точному порядку та ідентичним способом, ми, здається, впіймали себе на гарячому.

Припустімо, однак, що ми знаходимо в Інтернеті, здавалося б, «порівнянне» есе, хоча воно відповідає лише 80 зі 100 слів. Можливо, цього ще достатньо. Але уявіть, що ми знаходимо лише один екземпляр із 10 слів зі 100, які відповідають. Чи достатньо цього, щоб стверджувати, що мав місце плагіат або порушення авторських прав?

Сірість існує.

Текст смішний таким чином.

Порівняйте це з обставинами перетворення тексту в зображення або тексту в мистецтво. Коли генеративний штучний інтелект надає можливість перетворення тексту в зображення або текст у мистецтво, ви вводите текстову підказку, а програма AI створює зображення на основі наданої вами підказки. Зображення може бути несхожим на жодне зображення, яке коли-небудь бачили на цій чи будь-якій іншій планеті.

З іншого боку, зображення може нагадувати інші зображення, які існують. Ми можемо поглянути на генеративне зображення, створене штучним інтелектом, і дещо інтуїтивно сказати, що воно точно схоже на якесь інше зображення, яке ми бачили раніше. Загалом, візуальний аспекти порівняння та контрасту вживаються дещо легше. З огляду на це, будь ласка, знайте, що великі юридичні дебати гарантують, що таке накладення або копіювання одного зображення з іншого.

Ще одна схожа ситуація з музикою. Існують генеративні додатки штучного інтелекту, які дозволяють вводити текстові підказки, а на виході штучного інтелекту — аудіомузика. Ці можливості AI для перетворення тексту в аудіо або тексту в музику тільки починають з’являтися. Одна річ, на яку ви можете посперечатися, це те, що музика, створена генеративним штучним інтелектом, піддаватиметься ретельній перевірці на наявність порушень. Здається, ми знаємо, коли чуємо музичне порушення, хоча знову ж таки це складна юридична проблема, яка не залежить лише від того, як ми ставимося до сприйнятого відтворення.

Дозвольте ще один приклад.

Генеративний штучний інтелект з перетворенням тексту в код надає вам можливість вводити текстову підказку, і штучний інтелект створюватиме для вас код програмування. Потім ви можете використовувати цей код для підготовки комп’ютерної програми. Ви можете використовувати код у тому вигляді, в якому він був створений, або ви можете відредагувати та налаштувати код відповідно до своїх потреб. Існує також необхідність переконатися, що код є придатним і працездатним, оскільки в створеному коді можуть виникати помилки та неправдиві дані.

Вашим першим припущенням може бути те, що програмний код нічим не відрізняється від тексту. Це просто текст. Звичайно, це текст, який забезпечує певну мету, але це все одно текст.

Ну не зовсім так. Більшість мов програмування мають суворий формат і структуру щодо характеру операторів кодування цієї мови. У певному сенсі це набагато вужче, ніж вільна природна мова. Ви дещо обмежені в тому, як сформульовано кодування. Подібним чином, послідовність і спосіб, у який оператори використовуються та впорядковані, дещо обмежені.

Загалом, можливість продемонструвати, що програмний код був плагіатом або порушеним, майже легша, ніж природна мова. Таким чином, коли генеративний штучний інтелект сканує програмний код в Інтернеті, а потім генерує програмний код, шанси стверджувати, що код було явно відтворено, будуть відносно переконливішими. Це не слем-данк, тож очікуйте запеклих битв за це.

Моя головна думка полягає в тому, що ми матимемо однакові питання етики штучного інтелекту та права штучного інтелекту, які стикаються з усіма способами генеративного штучного інтелекту.

Плагіат і порушення авторських прав будуть проблемними для:

Текст в текст або текст в есе
Перетворення тексту в зображення або текст у мистецтво
Перетворення тексту на аудіо або текст на музику
Перетворення тексту на відео
Перетворення тексту в код
І т.д.

Всі вони підпадають під однакові проблеми. Деякі може бути легше «довести», ніж інші. Усі вони матимуть свій власний різновид кошмарів, пов’язаних із Етикою ШІ та Законом ШІ.

Обвинувачення в плагіаті чи порушенні авторських прав

Для обговорення давайте зосередимося на генеруючому штучному інтелекті з тексту в текст або тексту в есе. Я роблю це частково через надзвичайну популярність ChatGPT, який є типом генеративного штучного інтелекту з перетворенням тексту в текст. Є багато людей, які використовують ChatGPT, а також багато інших, які використовують різні схожі генеруючі програми ШІ для перетворення тексту в текст.

Чи знають ті люди, які використовують генеративні програми ШІ, що вони потенційно покладаються на плагіат або порушення авторських прав?

Видається сумнівним, що вони це роблять.

Я б насмілився сказати, що переважаюче припущення полягає в тому, що якщо генеративний додаток ШІ доступний для використання, виробник ШІ або компанія, яка розробила ШІ, має знати або бути впевненою, що в продуктах, які вони пропонують для використання, немає нічого поганого. Якщо ви можете використовувати його, він повинен бути над бортом.

Давайте повернемося до мого попереднього коментаря про те, як ми збираємося спробувати довести, що конкретний генеративний ШІ працює на протиправній основі щодо навчання даних.

Я міг би також додати, що якщо ми зможемо зловити один генеративний ШІ на цьому, шанси зловити інших, ймовірно, збільшаться. Я не кажу, що всі програми генеративного штучного інтелекту будуть в одному човні. Але вони опиняться в досить суворому морі, як тільки один з них буде припнутий до стіни.

Ось чому також буде надзвичайно корисно стежити за наявними судовими процесами. Перший, який виграє щодо заявленого порушення, якщо це станеться, можливо, призведе до загибелі інших генеративних програм штучного інтелекту, якщо певна вузькість не уникне ширших проблем. Ті, хто програє у заявленому порушенні, не обов’язково означають, що генеративні програми ШІ можуть бити в дзвони та святкувати. Можливо, втрата пов’язана з іншими факторами, які не настільки актуальні для інших програм генеративного штучного інтелекту тощо.

Я згадував, що якщо ми візьмемо есе зі 100 слів і спробуємо знайти ці точні слова в точній самій послідовності в Інтернеті, у нас можуть бути відносно серйозні аргументи за плагіат або порушення авторських прав, за інших рівних умов. Але якщо кількість слів, які збігаються, мала, ми, здавалося б, на тонкому льоду.

Я хотів би заглибитися в це.

Очевидним аспектом порівняння є те саме слово в тій самій послідовності. Це може статися для цілих уривків. Це було б зручно помітити, майже як дати нам на срібному блюді.

Ми також можемо викликати підозру, якщо збігається лише уривок слів. Ідея полягає в тому, щоб побачити, чи є це ключові слова чи, можливо, слова-заповнювачі, які ми можемо легко видалити або проігнорувати. Ми також не хочемо, щоб нас вводили в оману використання слів у їхньому минулому чи майбутньому часі чи ще одна дурниця. Слід також враховувати ці варіації слів.

Іншим рівнем порівняння може бути ситуація, коли слова значною мірою не є однаковими словами, але навіть у різному стані слова все ще висловлюють однакові думки. Наприклад, резюме часто використовує досить схожі слова як першоджерело, але ми можемо помітити, що резюме здається заснованим на першоджерелі.

Найважчий рівень порівняння базується на концепціях чи ідеях. Припустимо, що ми бачимо есе, в якому немає однакових або схожих слів як бази порівняння, але суть або ідеї однакові. Безперечно, ми вступаємо в непросту територію. Якби ми з готовністю сказали, що ідеї ретельно захищені, ми б закрили майже всі форми знання та розширення знань.

Ми знову можемо звернутися до зручного пояснення з Університету Дьюка:

«Авторське право захищає не ідеї, а лише конкретне вираження ідеї. Наприклад, суд вирішив, що Ден Браун не порушив авторських прав на попередню книгу, коли він написав The Da Vinci Code тому що все, що він запозичив із попереднього твору, — це основні ідеї, а не особливості сюжету чи діалогу. Оскільки авторське право покликане заохочувати творче виробництво, використання чужих ідей для створення нового та оригінального твору відповідає меті авторського права, воно не порушує його. Потенційно порушується авторське право, лише якщо хтось копіює висловлювання іншого без дозволу».
«Щоб уникнути плагіату, з іншого боку, потрібно визнати джерело навіть ідей, запозичених від когось іншого, незалежно від того, чи вираз цих ідей запозичено разом з ними. Таким чином, парафраз вимагає цитування, навіть якщо він рідко порушує будь-яку проблему авторського права».

Будь ласка, зверніть увагу, як раніше було визначено відмінності між аспектами подвійних проблем.

Отже, впровадження підходів до порівняння на практиці – це те, що відбувається протягом багатьох років. Подумайте про це таким чином. Студенти, які пишуть есе для своїх шкільних завдань, можуть виникнути спокуса взяти вміст з Інтернету та вдавати, що вони автори слів, які отримали Пулітцерівську премію.

Вчителі вже давно використовують програми перевірки на плагіат, щоб боротися з цим. Викладач бере реферат студента і вводить його в систему перевірки плагіату. У деяких випадках уся школа ліцензує використання програми перевірки на плагіат. Щоразу, коли студенти здають есе, вони повинні спочатку надіслати есе до програми перевірки на плагіат. Вчителю повідомляють, що повідомляє програма.

На жаль, ви повинні бути надзвичайно обережними щодо того, що мають сказати ці програми перевірки на плагіат. Важливо уважно оцінити, чи дійсні вказані показання. Як уже згадувалося, можливість перевірити, чи було скопійовано твір, може бути туманною. Якщо ви бездумно приймете результат програми перевірки, ви можете фальшиво звинуватити студента в тому, що він списував, хоча він цього не зробив. Це може розчавити душу.

Рухаючись далі, ми можемо спробувати використовувати програми перевірки на плагіат у сфері тестування генеративних результатів ШІ. Ставтеся до есе, виданих із генеративної програми AI, так, ніби їх написав учень. Потім ми оцінюємо, що каже перевірка плагіату. Це робиться з недовірою.

Існує нещодавнє дослідження, яке намагалося операціоналізувати ці типи порівнянь у контексті генеративного ШІ саме таким чином. Я хотів би обговорити з вами кілька цікавих знахідок.

По-перше, потрібен додатковий фон. Генеративний ШІ іноді називають LLM (великі мовні моделі) або просто LM (мовні моделі). По-друге, ChatGPT базується на версії іншого генеративного пакета AI OpenAI під назвою GPT-3.5. До GPT-3.5 був GPT-3, а до цього GPT-2. Зараз GPT-2 вважається досить примітивною порівняно з пізнішими серіями, і ми всі з нетерпінням чекаємо майбутньої презентації GPT-4, дивіться моє обговорення на посилання тут.

Дослідження, яке я хочу коротко вивчити, складалося з вивчення GPT-2. Це важливо усвідомлювати, оскільки зараз ми вийшли за межі можливостей GPT-2. Не робіть необдуманих висновків щодо результатів цього аналізу GPT-2. Тим не менш, ми можемо багато чому навчитися з оцінки GPT-2. Дослідження називається «Чи мовні моделі є плагіатом?» Чжуйонг Лі, Тай Ле, Цзінхуй Чен і Донгвон Лі, які з’явилися в ACM WWW '23, 1–5 травня 2023 р., Остін, Техас, США.

Це їх головне питання дослідження:

«Якою мірою (не обмежуючись запам’ятовуванням) LM використовують фрази чи речення зі своїх навчальних зразків?»

Вони використовували ці три рівні або категорії потенційного плагіату:

«Дослівний плагіат: точні копії слів або фраз без трансформації».
«Плагіат у парафразах: заміна синонімів, зміна порядку слів та/або зворотний переклад».
«Плагіат ідеї: представлення основного вмісту в розширеній формі».

GPT-2 справді був навчений на Інтернет-даних і, отже, відповідний кандидат для такого типу аналізу:

«GPT-2 попередньо навчений на WebText, містить понад 8 мільйонів документів, отриманих із 45 мільйонів посилань Reddit. Оскільки OpenAI не опублікував WebText, ми використовуємо OpenWebText, який є відтворенням корпусу WebText з відкритим кодом. Він був надійно використаний у попередній літературі».

Вибіркові ключові висновки, взяті з дослідження, складаються з:

«Ми виявили, що попередньо підготовлені сімейства GPT-2 дійсно займаються плагіатом з OpenWebText».
«Наші результати показують, що тонке налаштування значно зменшує випадки дослівного плагіату з OpenWebText».
«У відповідності до Carlini et al. та Карліні та ін., ми виявили, що більші моделі GPT-2 (великі та xl) зазвичай генерують плагіатні послідовності частіше, ніж менші».
«Однак різні LM можуть демонструвати різні моделі плагіату, і тому наші результати можуть не поширюватися безпосередньо на інші LM, включаючи новіші LM, такі як GPT-3 або BLOOM».
«Крім того, відомо, що автоматичні детектори плагіату мають багато режимів збою (як у хибнонегативних, так і хибнопозитивних результатах).
«З огляду на те, що більшість навчальних даних LM збираються з Інтернету без інформування власників вмісту, повторення ними слів, фраз і навіть основних ідей із навчальних наборів у згенерованих текстах має етичні наслідки».

Нам, безперечно, потрібно ще багато досліджень такого роду.

Якщо вам цікаво, як GPT-2 порівнюється з GPT-3 щодо навчання даних, існує досить помітний контраст.

Відповідно до повідомлених даних, навчання даних для GPT-3 було набагато ширшим:

«Модель була навчена за допомогою текстових баз даних з Інтернету. Це включало колосальні 570 ГБ даних, отриманих із книг, веб-текстів, Вікіпедії, статей та інших творів в Інтернеті. А точніше, в систему було введено 300 мільярдів слів» (BBC Science Focus журнал, «ChatGPT: усе, що вам потрібно знати про інструмент OpenAI GPT-3», Алекс Хьюз, лютий 2023 р.).

Для тих із вас, хто зацікавлений у більш глибоких описах навчання даних для GPT-3, ось уривок з офіційної картки моделі GPT-3, опублікованої на GitHub (дата останнього оновлення – вересень 2020 року):

«Набір навчальних даних GPT-3 складається з тексту, опублікованого в Інтернеті, або тексту, завантаженого в Інтернет (наприклад, книги). Інтернет-дані, на яких він навчався та оцінювався на сьогодні, включають: (1) версію набору даних CommonCrawl, відфільтровану на основі подібності до високоякісних довідкових корпусів, (2) розширену версію набору даних Webtext, (3) ) два книжкові корпуси в Інтернеті та (4) англомовна Вікіпедія».
«Враховуючи навчальні дані, результати та продуктивність GPT-3 більш репрезентативні для населення, підключеного до Інтернету, ніж для тих, хто занурений у вербальну, нецифрову культуру. Населення, підключене до Інтернету, є більш репрезентативним для розвинених країн, багатих, молодих і чоловіків, і в основному орієнтоване на США. Багатші нації та населення розвинутих країн показують вищий рівень проникнення Інтернету. Цифровий гендерний розрив також показує, що менше жінок представлено в Інтернеті в усьому світі. Крім того, оскільки різні частини світу мають різні рівні проникнення та доступу до Інтернету, набір даних недостатньо представляє менш пов’язані спільноти».

Один висновок із наведених вище вказівок щодо GPT-3 полягає в тому, що емпіричне правило серед тих, хто створює генеративний ШІ, полягає в тому, що чим більше Інтернет-даних ви можете сканувати, тим більше шансів покращити чи просувати генеративний ШІ.

Ви можете дивитися на це двома способами.

1) Покращений штучний інтелект. У нас буде генеративний штучний інтелект, який повзатиме якомога більшою частиною Інтернету. Захоплюючим результатом є те, що генеративний ШІ стане кращим, ніж є. Це те, на що варто з нетерпінням чекати.
2) Потенціал для копіювання. Це розширення сканування Інтернету огидно й захоплююче робить проблему плагіату та порушення авторських прав потенційно більшою й більшою. У той час як раніше не було так багато авторів контенту, які впливали, розмір збирається розквітнути. Якщо ви юрист на стороні творців контенту, це викликає у вас сльози (можливо, сльози жаху чи сльози радості від того, які перспективи це несе у вигляді судових позовів).

Стакан наполовину повний чи напівпорожній?

Тобі вирішувати.

Легальні міни чекають

Питання, над яким ви, можливо, думаєте, чи вважається ваш опублікований Інтернет-контент справедливою грою для сканування. Якщо ваш вміст знаходиться за платним доступом, імовірно, він не є ціллю для сканування, оскільки його неможливо легко отримати, залежно від потужності платного доступу.

Я б припустив, що більшість звичайних людей не ховають свій контент за платним екраном. Вони хочуть, щоб їхній контент був загальнодоступним. Вони припускають, що люди на це подивляться.

Чи публічний доступ вашого вмісту також аксіоматично означає, що ви схвалюєте його сканування для використання генеративним ШІ, який навчається даних?

Можливо, так, можливо, ні.

Це одна з тих юридичних справ, пов’язаних із закочуванням очей.

Повертаючись до цитованого раніше Закон Блумберга статті, автори згадують про важливість положень та умов (T&C), пов’язаних із багатьма веб-сайтами:

«Правова міна, яку несвідомо ігнорують компанії штучного інтелекту, які використовують онлайн-ботів для збирання даних, прихована в Умовах використання, які зазвичай доступні на загальнодоступних веб-сайтах усіх типів. На відміну від нині неврегульованого законодавства про інтелектуальну власність і дилеми щодо порушення авторських прав, Умови веб-сайту підтримуються добре встановленим договірним правом і зазвичай можуть бути забезпечені в суді, спираючись на достатню кількість прецедентів».

Вони вказують на те, що якщо припустити, що на вашому веб-сайті є сторінка, пов’язана з ліцензуванням, є ймовірність, що якщо ви використовували стандартизований сучасний шаблон, він міг би містити важливе положення:

«Отже, більшість типових Умов використання веб-сайтів, які є у великій кількості у вільному доступі, містять пункт, що забороняє автоматичне збирання даних. За іронією долі, такі вільно доступні шаблони, можливо, використовувалися для навчання ChatGPT. Тому власники вмісту можуть переглянути свої Умови використання та додати окремий пункт, який категорично забороняє будь-яке використання будь-якого вмісту з веб-сайтів для навчання штучному інтелекту або будь-яких пов’язаних цілей, незалежно від того, збирається вручну чи автоматично, без попереднього письмового дозволу власника веб-сайту. .”

До аналізу потенційних дій творців контенту щодо своїх веб-сайтів включено додаткову інформацію:

«Тому введення положення про неустойку неустойки за кожне порушення положення про заборону копіювання, доповнене положенням про судову заборону без зобов’язань, може бути прийнятним рішенням для тих авторів творчого контенту, які не хочуть надавати плоди свого інтелектуальна праця для цілей навчання штучному інтелекту без оплати за це або, принаймні, належної оцінки їхньої роботи».

Ви можете проконсультуватися з цього приводу у свого адвоката.

Деякі кажуть, що це життєво важливий спосіб повідомити розробникам штучного інтелекту, що творці контенту дуже серйозно ставляться до захисту свого контенту. Переконайтеся, що ваша ліцензія має належне формулювання, здавалося б, щоб звернути увагу виробників ШІ.

Інші, однак, трохи пригнічені. Вони пригнічено кажуть, що ви можете продовжити розміщувати на своєму веб-сайті найжорсткішу та найсмертоноснішу юридичну мову, але зрештою виробники штучного інтелекту збираються її відсканувати. Ви не знатимете, що вони так зробили. У вас буде багато часу, щоб довести, що вони це зробили. Ви навряд чи виявите, що їхні результати відображають ваш вміст. Це важка битва, яку ви не виграєте.

Контраргументом є те, що ви здаєте битву ще до її початку. Якщо ви принаймні не володієте достатньою юридичною мовою, і якщо ви коли-небудь їх спіймаєте, вони хитатимуться й уникатимуть будь-якої відповідальності. Усе тому, що ви не опублікували правильний юридичний жаргон.

Тим часом інший підхід, який прагне отримати популярність, складатиметься з маркування ваш веб-сайт із текстом, який говорить, що сайт не повинен скануватися генеративним штучним інтелектом. Ідея полягає в тому, що буде розроблено стандартизований маркер. Імовірно, веб-сайти можуть додати маркер на свій сайт. Розробникам штучного інтелекту скажуть, що вони повинні змінити сканування даних, щоб пропускати позначені веб-сайти.

Чи може маркерний підхід бути успішним? Проблеми включають витрати на отримання та розміщення маркерів. Разом із тим, чи будуть розробники штучного інтелекту дотримуватися маркерів і гарантувати, що вони уникатимуть сканування позначених сайтів. Інша перспектива полягає в тому, що навіть якщо виробники штучного інтелекту не погоджуються з маркуванням, це дає ще одну підказку для звернення до суду та стверджування, що творець контенту пройшов останню милю, щоб спробувати попередити про сканування ШІ.

Ой, голова йде обертом.

Висновок

Кілька заключних зауважень щодо цієї гострої теми.

Чи готові ви до карколомного погляду на всю цю дилему ШІ як плагіатора та порушника авторських прав?

Значна частина припущень щодо «спіймування» генеративного ШІ в акті плагіату чи порушення авторських прав залежить від виявлення результатів, які дуже схожі попередні роботи, такі як вміст в Інтернеті, який потенційно сканувався під час навчання даних.

Припустімо, однак, що тут діє прийом «розділяй і володарюй».

Ось що я маю на увазі.

Якщо генеративний штучний інтелект запозичує крихітний шматочок звідси і крихітний шматочок звідти, зрештою змішуючи їх разом для отримання будь-якого конкретного результату, шанси мати можливість мати момент, що готується, надзвичайно зменшуються. Будь-який результат, здавалося б, не підніметься до достатнього порогу, щоб ви могли напевно сказати, що він був копійований з одного конкретного джерела. Результуюче есе або інші способи виводу будуть відповідними лише частково. І за звичайним підходом довести факт плагіату чи порушення авторських прав вам зазвичай доводиться демонструвати більше, ніж якусь дрібницю, особливо якщо шматочок не є видатним і його можна знайти в Інтернеті (заниження цінностей). будь-який адекватний тягар доведення незаконного привласнення).

Чи можете ви переконливо заявити, що навчання даних за допомогою генеративного штучного інтелекту вкрало веб-сайти та розробників контенту, навіть якщо пропонований доказ є нібито несуттєвим?

Подумайте над цим.

Якщо ми стикаємося з потенційно масштабним плагіатом і масштабним порушенням авторських прав, можливо, нам доведеться змінити наш підхід до визначення того, що вважається плагіатом і/або порушенням авторських прав. Можливо, слід подати справу за плагіат або порушення авторських прав загалом чи загалом. Мозаїка, що складається з тисяч чи мільйонів дрібних уривків, може розглядатися як вчинення таких порушень. Однак очевидна проблема полягає в тому, що це може призвести до того, що будь-який вміст раптово потрапить під парасольку порушень. Це може бути слизький шлях.

Важкі думки.

Говорячи про важкі думки, легендарний письменник Лев Толстой сказав: «Єдиний сенс життя — служіння людству».

Якщо ваш веб-сайт і веб-сайти інших скануються для покращення штучного інтелекту, і хоча ви не отримуєте за це жодного пенні, чи можете ви мати урочисту розраду в гарячій вірі, що ви робите внесок у майбутнє людства? Здається, це невелика ціна.

Ну, якщо тільки штучний інтелект не виявиться страшною екзистенціальною загрозою, яка знищить усіх людей з життя. Ви не повинні брати собі за це заслугу. Я припускаю, що ви б просто не сприяли такому жахливому результату. Відкинувши цей жахливий прогноз, ви можете подумати, що якщо виробники штучного інтелекту заробляють гроші на своєму генеративному штучному інтелекті, і вони, здається, насолоджуються спекуляцією, ви також повинні отримати шматок пирога. Поділіться і поділіться однаково. Розробники штучного інтелекту повинні попросити дозвіл на сканування будь-якого веб-сайту, а потім також домовитися про ціну за дозвіл на сканування.

Дайте кредит там, де кредит належить.

Давайте поки що дамо серові Вальтеру Скотту останнє слово: «О, яке заплутане павутиння ми плетемо. Коли вперше ми практикуємося обманювати».

Це може бути застосовано, якщо ви вважаєте, що відбувається обман, або, можливо, не застосовано, якщо ви вважаєте, що все добре, абсолютно відверто та законно. Будь ласка, щедро віддайте собі належне за те, що ви подумали над цим. Ти заслуговуєш на це.

Джерело: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- and-ai-law/