Засновник Anthropic: Великі моделі можна "зняти рентгеном", а AGI можна реалізувати за 2-3 роки

Ця стаття складена з інтерв’ю в подкасті з генеральним директором Anthropic Даріо Амодеї.

Компанія Anthropic займає друге місце в схемі LLM. Вона була заснована в січні 2021 року Даріо Амодеї. У липні цього року Anthropic випустила модель останнього покоління Claude 2. Даріо Амодей був віце-президентом із досліджень і безпеки в OpenAI. Він заснував Anthropic, оскільки вважав, що у великих моделях є багато проблем безпеки, які потрібно терміново вирішити. Тому Anthropic надає великого значення безпеці ШІ. Бачення таке створювати надійні (надійні), зрозумілі інтерпретовані та керовані системи ШІ. Найбільша різниця між маршрутами Anthropic і OpenAI також полягає в їхній зосередженості на інтерпретації.

В інтерв’ю Даріо пояснює фокус Anthropic і інвестиції в інтерпретацію. Можливість інтерпретації є одним із важливих способів гарантувати безпеку моделі, **подібно до рентгенівських і МРТ-досліджень моделі, що дає змогу дослідникам зрозуміти, що відбувається всередині моделі, і визначити можливі джерела ризику. Справжнє розуміння того, чому працює закон масштабування та як досягти вирівнювання, невід’ємне від інтерпретації. **Даріо вважає, що безпека штучного інтелекту та узгодження однаково важливі. Якщо виникає проблема з узгодженням, проблемам безпеки штучного інтелекту, викликаним зловживанням, слід приділяти однакову увагу.

Даріо вважає, що здатність моделі буде значно покращена в найближчі 2-3 роки, і вона може навіть «захопити людське суспільство», але вона не може реально брати участь у бізнесі та економічних зв’язках. Це не через здатність Люди не використовують моделі достатньо ефективно, щоб реалізувати свій справжній потенціал у реальному житті та на роботі.

Порівняно з генеральними директорами більшості компаній зі штучним інтелектом, Даріо майже не бере участі в публічних інтерв’ю та рідко висловлює свої погляди в Twitter Даріо пояснив, що це його власний активний вибір, і він захищає свою здатність мислити незалежно та об’єктивно, зберігаючи стриманий профіль.

Нижче наведено зміст цієї статті, і його рекомендується прочитати в поєднанні з основними моментами.

👇

01 Чому закон масштабування працює

02 Наскільки здатність моделі буде порівнюватися з людською?

03 Вирівнювання: можливість інтерпретації – це «рентгенівське дослідження» моделі

04 Безпека AGI: безпека ШІ та кібербезпека

05 Траст комерціалізації та довгострокової вигоди

Чому працює закон масштабування

**Дваркеш Патель: Звідки взялася ваша віра в закон масштабування? Чому здатність моделі стає сильнішою зі збільшенням розміру даних? **

**Даріо Амодей: Закон масштабування є певною мірою емпіричним підсумком. Ми сприймаємо це явище з різних даних і явищ і узагальнюємо його як закон масштабування, але немає загальноприйнятого та особливо хорошого пояснення для його пояснення. Поясніть, що Основним принципом його функціонування є. **

Якщо мені потрібно дати пояснення, я особисто припускаю, що це може бути схоже на довгохвостий розподіл або степеневий закон у фізиці. Коли є багато функцій (особливостей), дані з відносно великою часткою зазвичай відповідають більш домінуючим основним правилам і шаблонам, оскільки ці шаблони часто з’являються, відповідна кількість даних, природно, більша, тоді як дані з довгим хвостом переважно деякі більш детальні та складні правила. **Наприклад, під час роботи з даними, пов’язаними з мовою, деякі основні правила можна дотримуватися в більшості даних, як-от основні граматичні правила, такі як частина мови, структура порядку слів тощо, а також відносно довгі правила є складною граматикою.

Ось чому кожного разу, коли дані збільшуються на порядок, модель може вивчати більше правил поведінки. Але ми не знаємо, чому між ними існує ідеальна лінійна кореляція. Головний науковий співробітник Anthropic, Джерард Каплан, використав фрактальну розмірність (Fractal Dimension), щоб пояснити цю проблему. Звичайно, інші люди намагаються іншими методами перевірити закон Саклінга, але ми досі не можемо пояснити, чому.

• Фрактальний вимір:

Математик Фелікс Хаусдорф вперше запропонував концепцію фрактальної розмірності в 1918 році, яка пізніше була також відома як розмірність Хаусдорфа. Фрактальний вимір можна використовувати для опису структури зв’язків прихованих ознак у даних машинного навчання та надає математичну модель пояснення, що стоїть за ефектом масштабування, пояснюючи, таким чином, чому моделі штучного інтелекту можуть покращити продуктивність завдяки масштабуванню.

**Крім того, навіть якщо ми знаємо про існування закону масштабування, важко передбачити зміни в конкретних можливостях моделі. У дослідженнях GPT-2 і GPT-3 ми ніколи не знаємо, коли модель може навчитися обчислювати і програмувати, і ці здібності з'являються раптово. **Єдине, що можна передбачити, це на числовому рівні, як-от значення втрат, зміна значення ентропії тощо, можна передбачити досить точно, але це схоже на те, що ми можемо робити статистику на основі погодних даних і прогнозувати вся тенденція зміни погоди, але важко передбачити погоду та температуру на конкретний день.

**Дваркеш Патель: Чому модель раптом може мати певні здібності? Наприклад, раніше воно не розуміло додавання, а тепер оволоділо вмінням обчислювати? Що спричинило цю зміну? **

Даріо Амодей: Це ще одне питання, яке ми все ще вивчаємо. Ми намагаємося використовувати метод механічної інтерпретації (механічної інтерпретації), щоб пояснити це питання та пояснити мовні явища за допомогою ідеї, подібної до з’єднання схем. Ви можете уявити ці речі як схеми, з’єднані одна за одною.

Є деякі докази того, що коли модель щось годують, її ймовірність дати правильну відповідь раптово зростає, але якщо ми подивимося на зміни до того, як модель дійсно дасть правильну відповідь, ми побачимо, що ймовірність становить від мільйона однієї сотої , стотисячна повільно піднялася до тисячної. У багатьох таких випадках здається, що відбувається якийсь поступовий процес, який ми не спостерігали і який ми ще не зрозуміли.

Ми не можемо бути впевнені, чи така «ланцюг», як «додавання», завжди існувала з першого дня, але поступово змінювалася від слабкої до сильної за допомогою певного процесу, щоб модель могла дати правильну відповідь. На ці питання ми хочемо відповісти через механістичну пояснюваність.

• Механічна інтерпретація:

Інтерпретативність механізму – це дослідження зворотного проектування нейронних мереж, яке можна використовувати, щоб допомогти людям легше зрозуміти, як модель відображає вхідні дані та вихідні дані, і це спосіб реалізувати інтерпретабельність моделі. Основна мета пояснюваності механізму полягає в тому, щоб зрозуміти глибоке навчання як природничу науку, використовуючи структуру та параметри моделі для пояснення процесу прийняття рішень і прогнозованих результатів моделі, щоб люди могли зрозуміти та перевірити принцип роботи моделі. модель. Його рання робота була зосереджена на використанні методів матричної факторизації та візуалізації ознак для розуміння представлень на проміжних рівнях візуальних мереж, а нещодавно зосереджена на представленнях мультимодальних мереж, а також на розумінні алгоритмів нейронних мереж на рівні шляху.

Anthropic опублікував дослідження механізму інтерпретації «Механічна інтерпретація, змінні та важливість інтерпретованих баз».

**Дваркеш Патель: Чи є якісь здібності, які не пов’язані з розміром моделі? **

**Даріо Амодей: Вирівнювання моделі та пов’язані з цінностями можливості можуть не виникати природним чином із розміром моделі. **Один зі способів мислення полягає в тому, що навчальний процес моделі по суті полягає в передбаченні та розумінні світу, і її основна відповідальність полягає в фактах, а не в думках чи цінностях. Але тут є кілька вільних змінних: яку дію ви маєте виконати? Яку точку зору ви повинні прийняти? На які фактори варто звернути увагу? Але немає такої мітки даних, з якої модель може навчатися. Тому я думаю, що поява Alignment та цінностей і т.д. малоймовірна.

**Дваркеш Пател: Чи існує ймовірність того, що перед тим, як здатність моделі наздожене людський інтелект, дані, доступні для навчання, будуть використані? **

**Даріо Амодей:**Я вважаю, що необхідно розрізняти, чи це теоретична проблема, чи практична ситуація. З теоретичної точки зору ми не так вже й далекі від того, щоб вичерпати дані, але моє особисте упередження полягає в тому, що це малоймовірно. Ми можемо генерувати дані різними способами, тому дані насправді не є перешкодою. Існує ще одна ситуація, коли ми використовуємо всі доступні обчислювальні ресурси, що призводить до повільного прогресу в можливостях моделі. Можливі обидва сценарії.

**Моя особиста точка зору полягає в тому, що існує висока ймовірність того, що Закон масштабування не буде застоюватися, і навіть якщо є проблема, вона, швидше за все, буде причиною комп’ютерної архітектури. **Наприклад, якщо ми використовуємо LSTM або RNN, швидкість розвитку здатності моделі зміниться. Якщо ми натрапимо на вузьке місце в еволюції можливостей моделі в кожній архітектурній ситуації, це буде досить серйозно, тому що це означає, що ми зіткнулися з глибшою проблемою.

• LSTMs:

Мережі довгострокової короткострокової пам’яті (мережі довгострокової короткострокової пам’яті), спеціальна мережа RNN (циклічна нейронна мережа), можуть вивчати довгострокові залежності, вирішувати проблему традиційного RNN у навчанні шаблонів довгої послідовності та вилучати довгострокові та короткочасні послідовності. інформація про дані. Здатність до навчання та репрезентації LSTM сильніша, ніж у стандартного RNN.

**Я думаю, що ми досягли етапу, коли говорити про те, що модель може, а що не може робити, не так вже й сильно. **У минулому люди обмежували можливості моделі, вважаючи, що модель не може освоїти здатність міркувати, навчитися програмуванню та вважали, що в деяких аспектах вона може зіткнутися з вузькими місцями. Хоча деякі люди, включно зі мною, раніше так не думали, але за останні кілька років ця теорія вузьких місць стала більш загальною, а тепер вона змінилася.

**Якщо вплив майбутнього процесу масштабування моделі все-таки виявить вузьке місце, я вважаю, що проблема походить від дизайну функції втрат, зосередженого на наступному завданні передбачення маркера. **Якщо ми приділяємо занадто багато уваги здібностям до міркування та програмування, втрата моделі зосередиться на маркерах, які відображають цю здатність, а маркери інших проблем з’являтимуться рідше (Примітка: набір даних попереднього навчання модель базуватиметься на важливості, яку науковці надають ступеню здібностей, відрегулюйте його співвідношення) **, функція втрат приділяє занадто багато уваги тим жетонам, які забезпечують найбільшу інформаційну ентропію, ігноруючи ті, які насправді важливі, сигнал може бути зануреним в шумі. **

Якщо ця проблема виникає, нам потрібно запровадити якийсь процес навчання з підкріпленням. Існує багато видів RL, наприклад навчання з підкріпленням із зворотним зв’язком людини (RLHF), навчання з підкріпленням для цілей і, як конституційний штучний інтелект, покращення (посилення) та дебати (дебати) тощо. Це як метод вирівнювання моделі, так і спосіб навчання моделі. **Можливо, нам доведеться спробувати багато методів, але ми повинні зосередитися на меті моделі. **

Одна з проблем навчання з підкріпленням полягає в тому, що вам потрібно розробити дуже повну функцію втрат. Функція втрати наступного токена передбачення вже розроблена, тому, якщо шкала в цьому напрямку бачить верхню межу, розвиток ШІ сповільниться.

**Дваркеш Пател: Як ви зрозуміли масштабування? **

**Даріо Амодей: **Формування моєї думки можна простежити приблизно з 2014 по 2017 рік. Я приділяв увагу розвитку штучного інтелекту, але тривалий час думав, що на його реальне застосування знадобиться багато часу, аж до появи AlexNet. Тоді я приєднався до проектної команди Ву Енди в Baidu в той час, і це був перший раз, коли я познайомився з ШІ.

Я вважаю, що мені дуже пощастило, на відміну від інших науковців того часу, мені доручили створити найсучасніші системи розпізнавання мовлення, і було доступно багато даних і графічних процесорів. **Під час роботи над цим проектом я природно зрозумів, що масштабування є хорошим рішенням. Цей процес також відрізняється від постдокторських досліджень.Нам не обов’язково придумувати розумні інноваційні ідеї, які не були запропоновані раніше. **

У всьому проекті мені потрібно лише провести деякі базові експерименти, як-от додати більше шарів на RNN або налаштувати параметри навчання, щоб спробувати продовжити час навчання моделі. Протягом цього періоду я спостерігав за процесом навчання моделі та бачив симуляцію Коли це відбувається. Я також спробував додати нові навчальні дані або зменшити повторювані цикли навчання та спостерігав вплив цих коригувань на продуктивність моделі. Під час цих експериментів я помітив деякі регулярні результати. Однак мені незрозуміло, чи є ці уяви новаторськими, чи інші колеги зробили подібні відкриття. Загалом це лише мій щасливий досвід як новачка ШІ. Я мало що знаю про цю сферу, але тоді я відчував, що це так само перевірено у сфері розпізнавання мовлення.

**Я познайомився з Іллею ще до заснування OpenAI, і він сказав мені, що «нам потрібно усвідомити, що ці моделі просто хочуть вчитися», ця перспектива значною мірою надихнула мене та змусила мене зрозуміти, що попереднє спостереження Феномен може не бути випадковий випадок, але звичайне явище. Цим моделям просто потрібно навчитися. Нам потрібно лише надати високоякісні дані та створити достатньо місця для їх роботи, і моделі навчаться самі. **

**Дваркеш Пател: Мало людей, як ви та Ілля, дійшли висновку про «універсальний інтелект». Чим ви думаєте про це питання інакше, ніж інші люди? Чому ви думаєте, що моделі й надалі вдосконалюватимуться в розпізнаванні мовлення та в інших сферах? **

Даріо Амодей: Я справді не знаю, коли я вперше спостерігав подібне явище у сфері мови, я думав, що це просто закон, застосовний до вертикального поля розпізнавання мови. Між 2014 і 2017 роками я пробував багато різних речей і спостерігав те саме знову і знову. Наприклад, я спостерігав це в грі Dota. Хоча дані, доступні в області робототехніки, відносно обмежені, і багато людей не налаштовані оптимістично, я також спостерігав подібне явище. **Я думаю, що люди, як правило, зосереджуються на вирішенні нагальних проблем. Вони можуть приділяти більше уваги тому, як вирішити саму проблему у вертикальному напрямку, а не думати про проблеми нижчого рівня в горизонтальному напрямку, тому вони можуть не повністю розглянути можливість масштабування статі. Наприклад, у сфері робототехніки найбільш фундаментальною проблемою може бути недостатня кількість навчальних даних, але легко зробити висновок, що масштабування не працює. **

**Дваркеш Пател: Коли ви зрозуміли, що мова може бути способом передачі величезних обсягів даних у ці моделі? **

**Даріо Амодей:**Я вважаю, що найважливіше — це концепція самоконтрольованого навчання на основі передбачення наступного токена, а також велика кількість архітектур для передбачення. Це насправді схоже на логіку тестування розвитку дитини. Наприклад, Мері заходить у кімнату і кладе предмет, а потім Чак заходить і пересуває предмет, не помітивши Мері, що думає Мері? Щоб завершити цей вид прогнозу, модель повинна одночасно вирішити математичні проблеми, психологічні проблеми тощо. Тому, на мій погляд, щоб робити хороші прогнози, ви повинні наповнити модель даними та дозволити їй навчатися без будь-яких обмежень.

Хоча у мене було подібне відчуття давно, поки Алек Редфорд не зробив спроб GPT-1, я зрозумів, що ми можемо не тільки реалізувати модель із передбачуваною здатністю, але й налаштувати її.Виконуйте різні типи місій. Я думаю, що ця річ дає нам можливість виконувати всі види завдань, мати можливість вирішувати всілякі проблеми, включаючи логічне міркування. Звичайно, ми також можемо продовжувати розширювати розмір моделі.

• Алек Редфорд, автор Sentiment Neuron, попередника серії GPT, і співавтор серії статей GPT, все ще працює в OpenAI.

**Дваркеш Патель: Як ви думаєте, що навчання моделі вимагає багато даних? Чи варто турбуватися про низьку ефективність модельного навчання? **

Даріо Амодей: Це питання ще вивчається. Одна з теорій полягає в тому, що розмір моделі насправді на 2-3 порядки менший, ніж людський мозок, але обсяг даних, необхідних для навчання моделі, у три-чотири рази перевищує обсяг тексту, який читає 18-річний Порядок величини, порядок величини людських істот, ймовірно, становить сотні мільйонів, тоді як порядок величини моделей становить сотні мільярдів або трильйонів. Обсяг даних, отриманих людьми, невеликий, але його цілком достатньо для нашої щоденної роботи та життя. Але є й інша можливість того, що окрім навчання наші органи чуття насправді вводять інформацію в мозок.

Насправді тут є парадокс. Масштаб моделі, яку ми зараз маємо, менший, ніж людський мозок, але він може виконувати багато завдань, подібних до людського мозку. Водночас кількість даних, необхідних для цього Модель набагато більша, ніж людський мозок. Тому нам все ще потрібно продовжувати досліджувати та розуміти це питання, але до певної міри це не важливо. **Що більш важливо, як оцінити здатність моделі та як судити про розрив між ними та людьми. Як на мене, розрив не такий вже й великий. **

**Дваркеш Патель: Чи акцент на масштабуванні та, загалом, вдосконаленні можливостей моделі приводу великомасштабних обчислень недооцінюють роль прогресу алгоритмів? **

**Даріо Амодей: **Коли вперше було опубліковано статтю Transformer, я писав про пов’язані проблеми та згадував, що існує 7 пов’язаних факторів, які впливатимуть на покращення здатності моделювати, з яких 4 фактори є найбільш очевидними та критичними: кількість параметрів моделі, масштаб обчислювальної потужності, якість даних і функція втрат. Наприклад, такі завдання, як навчання з підкріпленням або передбачення наступного токена, дуже залежать від наявності правильної функції втрат або механізму стимулювання.

• Навчання з підкріпленням (RL):

Знайдіть оптимальний спосіб дій для кожного конкретного стану навколишнього середовища за допомогою основного процесу проб і помилок. Модель машинного навчання запровадить випадкове правило на початку та в той же час введе певну кількість балів (також відомих як винагороди) у модель щоразу, коли виконується дія.

• Функція втрат (функція втрат) у машинному навчанні відноситься до функції, яка вимірює відповідність, і її функція полягає у відображенні ступеня різниці між виходом моделі та реальним значенням, тобто у вимірюванні похибка передбачення; включаючи передбачення всіх точок вибірки Помилка, що забезпечує єдине значення для представлення загальної відповідності; в той же час, під час процесу навчання, параметри моделі будуть постійно коригуватися відповідно до значення функції втрат, щоб мінімізувати значення втрат і отримати кращий ефект підгонки.

Є також 3 фактори:

По-перше, це структурна симетрія. Якщо архітектура не враховує правильну симетрію, вона не працюватиме і буде дуже неефективною. Наприклад, згорточна нейронна мережа (CNN) враховує трансляційну симетрію (трансляційну симетрію), LSTM враховує часову симетрію (симетрію часу), але проблема з LSTM полягає в тому, що вони не звертають уваги на контекст, ця структурна слабкість є загальною. Якщо модель не може зрозуміти й обробити довгу минулу історію (з посиланням на дані, які з’явилися раніше в структурі даних послідовності) через структурні причини, це буде схоже на те, що розрахунок є неузгодженим.Обидві моделі RNN і LSTM мають такі недоліки.

• Адам(Оцінка адаптивного моменту):

Адаптивна оцінка моменту, алгоритм Адама поєднує в собі переваги RMSprop і SGD і може добре справлятися з проблемами опуклої оптимізації.

• SGD(Стохастичний градієнтний спуск):

Стохастичний градієнтний спуск, ітераційний метод для оптимізації цільової функції з відповідними властивостями гладкості, такими як диференційована або субдиференційована. Його можна розглядати як стохастичне наближення до оптимізації градієнтного спуску. У задачах оптимізації великої розмірності це зменшує обчислювальне навантаження та забезпечує швидші ітерації в обмін на нижчі швидкості збіжності.

Тоді існує чисельна стабільність (примітка: кондиціонування, яке стосується того, чи алгоритм добре обумовлений у числовому аналізі, якщо ні, невелика зміна даних проблеми призведе до величезних змін у її розв’язанні). Оптимізація функцій втрат чисельно складна, і її легко розрізнити. Ось чому Адам діє краще, ніж звичайний ЗПСШ.

Останній елемент полягає в тому, щоб процес розрахунку моделі не перешкоджав, лише тоді алгоритм може бути успішним.

Таким чином, розвиток алгоритму полягає не просто в підвищенні обчислювальної потужності комп’ютера, а й у усуненні штучних перешкод старої архітектури. Багато разів модель хоче вільно навчатися та обчислювати, але ми блокуємо її без нашого відома.

**Дваркеш Патель: Як ви думаєте, чи буде щось схоже на Transformer, щоб стимулювати наступну велику ітерацію? **

Даріо Амодей: Я думаю, що це можливо. Деякі люди намагалися симулювати довгострокові залежності. Я також помітив, що деякі ідеї в Transformer недостатньо ефективні для представлення чи обробки речей. **Однак, навіть якщо такого роду інновацій не буде, ми вже швидко розвиваємося. Якщо вони з’являться, це лише змусить поле розвиватися швидше, і прискорення може бути не таким значним, тому що швидкість і так дуже висока . **

**Дваркеш Пател: З точки зору збору даних, чи повинна модель мати втілений інтелект? **

Даріо Амодей: Я схильний думати про це не як про нову архітектуру, а як про нову функцію втрати, тому що середовище, в якому модель збирає дані, стає зовсім іншим, що важливо для вивчення певних навичок. Хоча збір даних є складним, принаймні ми досягли певного прогресу на шляху збору корпусу, і продовжуватимемо це в майбутньому, хоча є ще більше можливостей для розробки з точки зору конкретних практик.

• Функція втрати:

Це важлива концепція машинного та глибокого навчання. Він використовується для вимірювання ступеня різниці між результатом передбачення моделі та справжньою міткою, тобто помилки передбачення моделі. Функція втрат розроблена, щоб дозволити моделі мінімізувати помилку передбачення шляхом коригування параметрів, тим самим покращуючи продуктивність і точність моделі.

**Дваркеш Патель: Чи існують інші підходи, такі як RL? **

Даріо Амодей: Ми вже використовуємо метод RLHF для навчання з підкріпленням, але я думаю, що важко розрізнити, чи це вирівнювання чи здатність? Вони дуже схожі. Я рідко змушую моделей діяти через RL. RL слід використовувати лише після того, як модель виконала певні дії та зрозуміла наслідки цих дій. Тож я думаю, що навчання з підкріпленням буде дуже потужним, але також матиме багато проблем із безпекою щодо того, як моделі діють у світі

Навчання з підкріпленням є широко використовуваним інструментом, коли дії виконуються протягом тривалого періоду часу, а наслідки цих дій розуміються лише пізніше.

**Дваркеш Пател: Як, на вашу думку, ці технології будуть інтегровані в конкретні завдання в майбутньому? Чи можуть ці мовні моделі спілкуватися одна з одною, оцінювати одна одну, посилатися на відповідні результати досліджень і покращувати їх? Або кожна модель працює незалежно і зосереджується лише на самостійних результатах, не співпрацюючи з іншими моделями? Чи зможуть ці мовні моделі високого рівня сформувати справжню систему спільної роботи в процесі розробки та застосування в майбутньому, чи кожна модель буде робити свою справу? **

Даріо Амодей: Ймовірно, у майбутньому моделі потрібно буде виконувати більш складні завдання, що є неминучою тенденцією. Проте з міркувань безпеки нам може знадобитися певною мірою обмежити сферу застосування мовної моделі, щоб зменшити потенційні ризики. **Чи можливий діалог між моделями? Чи призначені вони в першу чергу для людей? Ці питання вимагають розгляду соціальних, культурних та економічних впливів поза технічним рівнем, і їх важко передбачити з точністю.

**Хоча ми можемо передбачити тенденцію зростання розміру моделі, важко зробити надійні прогнози щодо таких питань, як час комерціалізації або форма заявки. Я сам не дуже вмію передбачати таку тенденцію майбутнього розвитку, і зараз ніхто не може зробити це добре. **

**Як здібності моделі відповідатимуть здібностям людей? **

**Дваркеш Патель: Якби хтось сказав мені у 2018 році, що у 2023 році у нас буде така модель, як Claude-2, з усіма видами вражаючих можливостей, я б точно вважав, що AGI було досягнуто у 2018 році. Але очевидно, принаймні на даний момент і, можливо, навіть у майбутніх поколіннях, ми добре усвідомлюємо, що все ще будуть відмінності між рівнем ШІ та людиною. Чому така розбіжність між очікуваннями та реальністю? **

**Даріо Амодей: **Я новачок у GPT-3, і на ранніх стадіях Anthropic моє загальне відчуття щодо цих моделей таке: здається, вони справді розуміють суть мови, я не впевнений, що нам потрібно розширити модель до якої міри, можливо, нам потрібно приділяти більше уваги іншим сферам, таким як навчання з підкріпленням. У 2020 році я вважаю можливим ще більше збільшити розмір моделі, але в міру того, як дослідження поглиблюється, я починаю думати, чи ефективніше буде безпосередньо додавати інше цільове навчання, наприклад навчання з підкріпленням.

** Ми побачили, що людський інтелект насправді має дуже широкий діапазон, тому визначення «машини, що досягають людського рівня» саме по собі є діапазоном, а місце та час для виконання машинами різних завдань різні. Багато разів, наприклад, ці моделі наближалися або навіть перевершували продуктивність людини, але все ще знаходяться в зародковому стані, коли справа доходить до доведення відносно простих математичних теорем. Все це показує, що інтелект не є безперервним спектром (спектром). ** Існують різні види професійних знань і навичок у різних сферах, і методи запам'ятовування теж різні. Якби ви запитали мене 10 років тому (примітка: Даріо тоді ще вивчав фізику та нейронауку), я б не подумав, що це буде так.

**Дваркеш Пател: Як ви думаєте, наскільки ці моделі перекриватимуться в діапазоні навичок, виходячи з розподілу навчання, яке ці моделі отримують завдяки величезній кількості Інтернет-даних, які люди отримують в результаті еволюції? **

Даріо Амодей: Є значне збігання. Багато моделей відіграють роль у комерційному застосуванні, ефективно допомагаючи людям підвищити ефективність. Враховуючи різноманіття людської діяльності та велику кількість інформації в Інтернеті, я думаю, що моделі справді вивчають певною мірою фізичні моделі реального світу, але вони не вчаться діяти в реальній реальності, навички, які можуть бути відносно легкими тонка настройка . Я думаю, що є деякі речі, яких моделі не вчаться, але люди вчаться.

**Дваркеш Патель: Чи можливо, щоб моделі перевершили людей у багатьох завданнях, пов’язаних з бізнесом та економікою, у найближчі кілька років? У той же час, моделі все ж можуть поступатися людям у деяких завданнях, таким чином уникаючи подібного вибуху інтелекту? **

Даріо Амодей: Це питання важко передбачити. Що я хочу нагадати, так це те, що закон масштабування може надати деякі ідеї прогнозування з точки зору теоретичної бази, але буде дуже важко по-справжньому зрозуміти деталі майбутнього розвитку. Звичайно, закон масштабування може продовжувати застосовуватися, і чи сповільнять прогрес фактори безпеки чи регулювання, але якщо відкинути ці суперечності, я вважаю, що якщо штучний інтелект може піти далі у створенні економічної цінності, то він повинен досягти більшого прогресу буде зроблено в більшій кількості полів.

Я не бачу, щоб ця модель була особливо слабкою в будь-якій області або взагалі не досягла прогресу. Подібно до математики та програмування в минулому, вони важкі, але також досягають несподіваних результатів. За останні 6 місяців модель 2023 досягла значного прогресу порівняно з моделлю 2022. Хоча продуктивність моделі в різних сферах і завданнях не є повністю збалансованою, покращення загальної здатності безперечно принесе користь усім сферам.

**Дваркеш Патель: Коли модель стикається зі складним завданням, чи має модель здатність виконувати ланцюжок думок у серії безперервних завдань? **

**Даріо Амодей: **Здатність до безперервного прийняття рішень залежить від навчання з підкріпленням, щоб модель могла виконувати довгострокові завдання. **І я не думаю, що для цього потрібна більша додаткова обчислювальна потужність. Таке мислення є неправильною недооцінкою власної здатності моделі до навчання. **

Питання про те, чи будуть моделі перевершувати людей в одних сферах, але важко робити це в інших, я думаю, що це складно, у деяких областях це може бути правдою, але в деяких областях це не буде так, оскільки фізичний світ задіяний у втілених завданнях інтелекту в

Так що далі? Чи може AI допомогти нам навчити швидший AI, який може вирішити ці проблеми? Чи фізичний світ більше не потрібен? Нас турбують проблеми вирівнювання? Чи є занепокоєння з приводу зловживань, таких як створення зброї масового знищення? Чи варто нам хвилюватися, що ШІ безпосередньо візьме на себе майбутні дослідження ШІ? Чи ми хвилюємося, що він досягне певного порогу економічної продуктивності, коли він зможе виконувати завдання, схожі на середні? ... Я думаю, що ці запитання можуть мати різні відповіді, але я думаю, що всі вони будуть протягом кількох років.

**Дваркеш Патель: Якою б була його зарплата, якби Клод був співробітником Anthropic? Чи прискорює це розвиток штучного інтелекту в реальному сенсі? **

Даріо Амодей: Для мене, мабуть, у більшості випадків це більше стажування, але все одно краще, ніж стажування в деяких конкретних сферах. Але загалом може бути важко дати абсолютну відповідь на це питання, тому що моделі не є людьми за своєю природою, вони можуть бути розроблені, щоб відповісти на одне або кілька запитань, **але на відміну від людей, вони не мають концепції «досвід, заснований на часі». **

**Якщо штучний інтелект хоче стати більш ефективним, він повинен спочатку допомогти людям підвищити їх власну продуктивність, а потім поступово досягти такого ж рівня людської продуктивності. Наступний крок після цього — стати головною силою в розвитку науки, що, я вірю, станеться в майбутньому. Але я підозрюю, що деталі того, що насправді сталося в майбутньому, зараз виглядатимуть трохи дивно, відрізняючись від моделей, які ми очікували. **

**Дваркеш Патель: Як ви думаєте, коли здатність моделі досягне людського рівня? Як воно тоді буде? **

Даріо Амодей: Це залежить від того, наскільки високі чи низькі людські очікування та стандарти. Наприклад, якщо ми очікуємо, що модель спілкуватиметься лише протягом 1 години, і модель може поводитися як добре освічена людина під час процесу, мета досягти рівня людини може бути недалекою, я думаю, що це можливо через 2-3 роки здійсниться. **На цей графік значною мірою впливає компанія чи галузь, яка вирішила уповільнити розвиток, або урядові обмеження з міркувань безпеки. **Але з точки зору даних, обчислювальної потужності та економії витрат ми недалеко від цієї мети. **

Але навіть якщо модель досягне цього рівня**, я не думаю, що модель зможе домінувати в більшості досліджень штучного інтелекту або суттєво змінити те, як працює економіка, і вона не є суттєво небезпечною. Отже, загалом різні стандарти вимагають різних часових рамок для реалізації, але з суто технічної точки зору, не так вже й далеко досягти моделі, яку можна порівняти з базовою освіченою людиною. **

**Дваркеш Пател: Чому модель може досягти тих же здібностей, що й людина з базовою освітою, але не може брати участь в економічній діяльності чи замінити роль людини? **

**Даріо Амодей:**По-перше, можливо, модель не досягла достатньо високого рівня. **Чи зможе це значно прискорити продуктивність 1000 хороших учених у такій галузі, як дослідження ШІ? Порівняльна перевага моделі в цьому плані поки неочевидна. **

На даний момент великі моделі не зробили важливих наукових відкриттів, ймовірно, тому, що рівень цих моделей недостатньо високий, і продуктивність цих моделей може бути еквівалентною лише B-рівню або B-рівню. Але я вірю, що це зміниться з масштабуванням моделі. Моделі ведуть інші сфери запам’ятовування, інтеграції фактів і встановлення зв’язків. Особливо в галузі біології, через складність організмів, сучасні моделі накопичили велику кількість знань. У цій сфері важливі відкриття та зв’язок. На відміну від фізики, біологія вимагає багато фактів, а не тільки формул. Тож я впевнений, що моделі вже мають багато знань, але не змогли зібрати їх усе разом, оскільки рівень навичок не на належному рівні. Я думаю, що вони поступово розвиваються, щоб інтегрувати ці знання на більш високому рівні.

Інша причина полягає в тому, що в реальній бізнес-діяльності існує багато невидимих суперечностей, які неможливо вивчити за допомогою моделі. Наприклад, в ідеалі ми можемо використовувати ботів ШІ для взаємодії з клієнтами, але реальна ситуація набагато складніша, ніж теорія, і ми не можемо просто покладатися на роботів служби підтримки клієнтів або сподіватися, що ШІ зможе замінити людей, які виконують ці завдання. І насправді всередині компанії все ще є витрати на штучне просування впровадження моделі, поєднання ШІ-бота та робочого процесу тощо.

**У багатьох випадках ефективність людей, які використовують модель, невисока, а потенціал моделі не повністю реалізований. Це не тому, що модель недостатньо потужна, а тому, що людям доводиться витрачати час на дослідження того, як зробити його більш ефективним. **

Загалом, у короткостроковій перспективі моделі не зможуть повністю замінити людей, але в довгостроковій перспективі, оскільки можливості моделей продовжують удосконалюватися, а їхня роль у підвищенні ефективності людської роботи стає все більшою та більшою, люди з часом поступляться місцем моделям. . Просто нам важко визначити точний час для різних фаз. У короткостроковій перспективі існують різні перешкоди та складні фактори, які роблять модель «обмеженою», але, по суті, ШІ все ще перебуває на стадії експоненціального зростання.

**Дваркеш Пател: Коли ми дійдемо до цього моменту протягом наступних 2-3 років, чи буде весь ШІ розвиватися так швидко, як сьогодні? **

Даріо Амодей: Журі ще немає. Завдяки спостереженню за функцією втрат ми виявили, що ефективність навчання моделі знижується, а крива закону масштабування не така крута, як на початку. Це також підтверджують моделі, випущені різними компаніями. Але в міру того, як ця тенденція розвивається, крихітна кількість ентропії в кожному точному передбаченні стає більш важливою. Можливо, саме ці крихітні значення ентропії створили прірву між Ейнштейном і пересічним фізиком. З точки зору фактичної продуктивності, метрика, здається, покращується відносно лінійним чином, хоча й важко передбачити. Тому чітко побачити ці ситуації важко. Крім того, я вважаю, що найбільшим чинником прискорення є те, що в цей простір надходить все більше грошей, і люди усвідомлюють, що в цьому просторі є величезна економічна цінність. Тож я очікую приблизно 100-кратного збільшення фінансування для найбільших моделей, і продуктивність чіпа покращується, і алгоритми покращуються, тому що над цим зараз працює дуже багато людей.

**Дваркеш Пател: Ви думаєте, Клод при свідомості? **

Даріо Амодей: Ще не впевнений. Спочатку я думав, що нам потрібно хвилюватися про подібні проблеми лише тоді, коли модель працює в достатньо багатому середовищі, наприклад, у втіленому інтелекті, або має довгостроковий досвід і функцію винагороди (функція винагороди), але тепер мене цікавить Модель, особливо модель. Після дослідження внутрішнього механізму моя точка зору похитнулася: **Схоже, велика модель має багато когнітивних механізмів, необхідних для того, щоб стати активним агентом, наприклад індукційна головка (Induction Head). Враховуючи рівень можливостей сучасних моделей, це може стати справжньою проблемою в найближчі 1-2 роки. **

• Функція винагороди:

Механізм заохочення в навчанні з підкріпленням, який повідомляє агенту, що є правильним, а що неправильним, за допомогою винагород і покарань.

• Індукційна головка:

Спеціальний компонент/структура моделі в моделі Transformer, яка дозволяє моделі здійснювати контекстне навчання.

**Дваркеш Пател: Як ми розуміємо «інтелект», оскільки можливості мовних моделей продовжують зростати й наближатися до людського рівня? **

Даріо Амодей: Я дійсно усвідомлюю, що інтелект приходить від розуміння «матеріальної» природи обчислювальної потужності. Інтелектуальні системи можуть складатися з багатьох незалежних модулів або бути надзвичайно складними. Річ Саттон називає це «сумним уроком», також відомим як «гіпотеза масштабування», і перші дослідники, такі як Шейн Лейк і Рей Курцвейл, почали усвідомлювати це приблизно в 2017 році.

• Гіркий урок / Гіпотеза масштабування:

У 2019 році Річ Саттон опублікував статтю «Гіркий урок». Основна думка статті полягає в тому, що дослідження штучного інтелекту повинні повною мірою використовувати обчислювальні ресурси. Тільки коли використовується велика кількість обчислень, можна зробити прорив у дослідженнях.

Протягом 2014-2017 років все більше дослідників розкривали і розуміли цей момент. Це великий крок вперед у науковому розумінні. Якщо ми можемо створити інтелект без певних умов, лише відповідних градієнтів і сигналів втрати, тоді еволюція інтелекту менш загадкова.

Здатність дивитися на модель — нічого надто повчального для мене, щоб переглянути ідею людського інтелекту. Вибір деяких когнітивних здібностей більш довільний, ніж я думав, і кореляція між різними здібностями не може бути пояснена самою таємницею. **Моделі є сильними у кодуванні, але ще не можуть довести теорему простих чисел, і, ймовірно, також люди. **

Вирівнювання: Інтерпретація полягає в «рентгенівському» знімку моделі

**Дваркеш Пател: Що таке механізм пояснення? Який зв'язок між ним і вирівнюванням? **

**Даріо Амодей: **У процесі впровадження вирівнювання ми не знаємо, що сталося всередині моделі. Я думаю, що з усіма методами, які включають тонке налаштування, деякі потенційні ризики безпеки залишаються, модель просто навчена не демонструвати їх. **Суть всієї ідеї пояснюваності механізму полягає в тому, щоб дійсно зрозуміти, як модель працює всередині. **

Ми ще не маємо однозначної відповіді. Я можу приблизно описати процес. Завдання для тих методів, які стверджують, що здатні досягти узгодження на цьому етапі, полягає в тому: чи ці методи все ще ефективні, коли масштаб моделі більший, можливості сильніші або певні ситуації змінюються? Тому **я думаю, що якщо існує «машина оракула», яка може сканувати модель і оцінювати, чи була модель узгоджена, це значно полегшить цю проблему. **

Наразі найкраще, що ми підходимо до концепції такого оракула, — це щось на кшталт пояснюваності механізму, але це ще далеко від наших ідеальних вимог. Я схильний думати про наші поточні спроби узгодження як про розширений набір для навчання, але я не впевнений, чи зможуть вони й надалі справляти хороший вплив на вирівнювання проблеми з розповсюдженням. Це схоже на рентгенівське дослідження моделі, а не на її модифікацію, більше схоже на оцінку, ніж на втручання.

**Дваркеш Пател: Чому пояснюваність механізму має бути корисною? Як це допомагає нам передбачити потенційний ризик моделі? Це все одно, що припустити, що ви економіст, який посилає мікроекономістів вивчати різні галузі, але все одно має високу ймовірність мати труднощі з прогнозуванням, чи буде рецесія в наступні 5 років. **

**Даріо Амодей: Наша мета полягає не в тому, щоб повністю зрозуміти кожну деталь, а в тому, щоб перевірити основні характеристики моделі, такі як рентген або МРТ, щоб визначити, чи внутрішній стан і ціль моделі істотно відрізняються від невідповідність зовнішнього вигляду, чи може це призвести до якихось деструктивних цілей. **Хоча ми не відразу отримаємо відповіді на багато запитань, принаймні надано спосіб.

Я можу навести людський приклад. За допомогою МРТ-тесту ми можемо передбачити, чи є у когось психічні захворювання з більшою ймовірністю, ніж випадкові припущення. Нейроболог працював над цим кілька років тому, і він перевірив свою власну МРТ і виявив, що він також має цю особливість. Оточуючі казали: «Це так очевидно, ти мудак, у тебе, мабуть, проблеми», — а сам вчений цього абсолютно не підозрював.

Суттєвою ідеєю цього прикладу є те, що зовнішня поведінка моделі може зовсім не викликати у людей відчуття проблем і є дуже цілеспрямованою, але її внутрішність може бути «темною». Нас хвилює така модель , які зовні схожі на людей, але внутрішня мотивація надзвичайна.

**Дваркеш Пател: Якщо модель досягне людського рівня протягом наступних 2-3 років, як ви думаєте, скільки часу знадобиться для реалізації вирівнювання? **

Даріо Амодей: Це дуже складне питання. Я думаю, що багато людей досі не розуміють, що таке вирівнювання. Зазвичай люди думають, що вирівнювання моделі є проблемою, яку потрібно вирішити, або що вирішення проблеми вирівнювання схоже на гіпотезу Рімана, і одного дня ми зможемо її вирішити. **Я вважаю, що проблеми з вирівнюванням більш невловимі та непередбачувані, ніж думають люди. **

Перш за все, **З постійним вдосконаленням масштабу та можливостей мовних моделей у майбутньому з’являться потужні моделі з автономними можливостями. Якщо такі моделі мають намір знищити людську цивілізацію, ми практично не зможемо їх зупинити. **

По-друге, Наша нинішня здатність контролювати модель недостатньо сильна, це тому, що модель побудована на принципі статистичного навчання, хоча ви можете поставити багато запитань і дати відповідь, але ніхто не може передбачити до чого в результаті може призвести відповідь на n-е питання.

**Крім того, спосіб навчання моделі був абстрактним, що ускладнювало прогнозування всіх її наслідків у реальних програмах. **Типовим прикладом є те, що Бінг і Сідні продемонстрували деякі раптові та небезпечні характеристики після певного тренування, наприклад, прямі погрози іншим. Усе це свідчить про те, що результати, які ми отримуємо, можуть повністю відрізнятися від очікувань. Я вважаю, що існування двох вищезазначених проблем саме по собі є великою прихованою небезпекою. Нам не потрібно вникати в деталі інструментальної раціональності та еволюції. Цих двох моментів достатньо, щоб викликати занепокоєння. Зараз кожна модель, яку ми створили, має певні приховані небезпеки, які важко передбачити, і ми повинні звернути на це увагу.

• Гіпотеза Рімана:

Гіпотеза Рімана — важлива проблема в математиці, яка досі не вирішена. Гіпотезу про розподіл нулів ζ-функції Рімана ζ(s) висунув математик Бернхард Ріман у 1859 році.

• Сідней:

Нещодавно Microsoft випустила останню версію своєї пошукової системи Bing, яка інтегрує початковий чат-бот під кодовою назвою під назвою «Sydney». Однак незабаром тестувальники виявили проблеми з чат-ботом. Під час діалогу час від часу демонструється явище роздвоєння особистості, і навіть обговорюється з користувачем кохання та шлюб, показуючи людські емоції.

**Дваркеш Пател: Якщо припустити, що модель може розробити небезпечні технології, такі як біологічна зброя, протягом наступних 2-3 років, чи може ваша поточна дослідницька робота щодо пояснюваності механізму, конституційного штучного інтелекту та RLHF бути ефективною для запобігання таким ризикам? **

Даріо Амодей: Стосовно питання про те, чи мовна модель приречена на крах за замовчуванням чи вирівнювання за замовчуванням, судячи з поточної моделі, результат може бути ненормальним, як Bing або Sydney, або він може бути схожим на нормальний Claude. Але якщо ви безпосередньо застосувате це розуміння до більш потужної моделі, результати можуть бути хорошими чи поганими, залежно від конкретної ситуації. Це не «вирівнювання за замовчуванням», результат більше залежить від ступеня контролю деталізації.

• вирівнювання за замовчуванням:

Думка про те, що досягнення узгодженості в штучному загальному інтелекті (AGI) може бути простішим, ніж очікувалося спочатку. Коли модель має детальну інформацію про наш світ, модель вже має людські цінності по суті. Для узгодження з AGI необхідно лише витягнути ці значення та скерувати ШІ для розуміння цих абстрактних людських понять. doom за замовчуванням є протилежністю вирівнювання за замовчуванням, і вважається неможливим для моделі досягти вирівнювання.

Якість моделі – сіра зона.Нам важко повністю контролювати кожну змінну та її внутрішній зв’язок.Помилки можуть призвести до нераціональних результатів. Маючи це на увазі, я думаю, що природа проблеми полягає не в приреченому успіху чи приреченій невдачі, а в певному ймовірному ризику. **У наступні два-три роки ми маємо присвятити себе вдосконаленню методів діагностики моделі, методів навчання безпеці та зменшенню можливих розбіжностей. Наразі наші можливості контролю ще потребують посилення. Проблема вирівнювання відрізняється від гіпотези Рімана. Це питання системної інженерії, яке можна вирішити лише шляхом накопичення практики з часом. Тільки продовжуючи просувати різноманітні завдання, ми можемо поступово оптимізувати рівень контролю та зменшити ризики. **

Дваркеш Патель: Загалом, є три припущення щодо майбутнього вирівнювання:

1) Використовуйте RLHF++, щоб легко реалізувати вирівнювання моделі;

2) Незважаючи на те, що це велика проблема, великі компанії мають можливість її нарешті вирішити;

**3) Все ще важко досягти вирівнювання моделі на поточному рівні людського суспільства. **

**Яка ваша особиста думка щодо ймовірності кожної ситуації? **

**Даріо Амодей:**Я відчуваю, що в цих можливостях є певні ризики, і ми повинні сприймати їх серйозно, але мене більше цікавить, як змінити ймовірність цих трьох можливих результатів, отримуючи нові знання через навчання.

Інтерпретація механізму може не тільки безпосередньо вирішити проблему, але й допомогти нам зрозуміти реальну складність вирівнювання моделі Нові ризики, які допоможуть нам зрозуміти природу проблеми.

Щодо деяких теоретичних припущень про наявність спільної мети (конвергентної мети), я не можу з ними повністю погодитися. **Пояснюваність механізму подібна до «рентгенівського знімка» - лише зрозумівши проблему на рівні внутрішнього механізму, ми можемо зробити висновок, чи важко подолати певні труднощі. **Є надто багато припущень, наше розуміння процесу все ще неглибоке, і ми занадто самовпевнені, але ситуація, швидше за все, буде складнішою, ніж очікувалося.

**Дваркеш Пател: Наскільки складно досягти узгодження з Claude 3 і серією майбутніх моделей? Чи ця річ особливо важлива? **

Даріо Амодей :

**Найбільше всіх хвилює те, що всі моделі штучного інтелекту можуть вирівнюватися на поверхні, але насправді вони можуть вводити нас в оману, але мене більше цікавить, що можуть сказати нам дослідження машинної інтерпретації. Як я щойно сказав, пояснюваність механізму схожа на «рентгенівський знімок» моделі, так само як ми не можемо стверджувати, що рентген правильний, ми можемо лише сказати, що модель, здається, не проти нас. **Теоретично кажучи, це дійсно можливо, щоб він еволюціонував у нашу протилежність, і це питання не є 100% впевненим. Просто на цьому етапі інтерпретабельність є найкращим способом зробити так, щоб модель не розвивалася таким чином.

**Дваркеш Пател: під час точного налаштування чи навчання моделі чи слід також звертати увагу на уникнення шкідливого вмісту, який може спричинити небезпеку? Наприклад, під час вивчення тем, пов’язаних із виробництвом біологічної зброї, модель може дати невідповідні відповіді через неправильне розуміння питання. **

Даріо Амодей: Для поточної мовної моделі ризик витоку даних практично не існує. Якщо нам знадобиться налаштувати модель, ми будемо працювати з нею на невеликій території в приватному середовищі, контролюватимемо весь процес разом із галузевими експертами та запобігатимемо будь-яким потенційним проблемам, тож у разі витоку це буде схоже на те, що модель має відкритий код. . Зараз це головним чином питання безпеки. Але справжня небезпека моделі полягає в тому, що ми повинні хвилюватися, що якщо ми навчимо дуже потужну модель і хочемо підтвердити, чи вона безпечна чи небезпечна, тоді може виникнути ризик домінування моделі. Спосіб уникнути цього — переконатися, що моделі, які ми тестуємо, недостатньо потужні для виконання цих операцій.

**Дваркеш Пател: Виконуючи тест на кшталт «чи може модель відтворювати себе як небезпечну здатність», що робити, якщо модель дійсно може відтворювати себе? **

Даріо Амодей: Це припущення дуже розумне. Нам потрібно зробити відповідальні висновки, і під час обговорення з Arc (Центр дослідження вирівнювання, Центр дослідження вирівнювання) ми дізналися, що нам потрібно ретельно та поступово вдосконалювати стандарти тестування можливостей моделей. Наприклад, перед тестуванням ми повинні чітко виключити можливість того, що модель може безпосередньо відкривати обліковий запис AWS або самостійно заробляти кошти.Ця поведінка є очевидними передумовами для виживання моделі в дикій природі. Нам слід налаштувати різні тестові показники на дуже низький рівень такої ризикованої поведінки. Поступово збільшуючи складність тестування, ми також повинні ретельніше контролювати кожен крок тесту, щоб запобігти будь-якій потенційній загрозі безпеці.

• Arc (Центр дослідження вирівнювання, Центр дослідження вирівнювання):

Створена в 2021 році, це некомерційна організація, яка зосереджується на дослідженнях безпеки штучного інтелекту (AI Safety), а її офіс розташований у районі затоки Каліфорнії, США. Засновником ARC є Пол Крістіано, шанована особа в індустрії штучного інтелекту, який колись очолював дослідницьку групу вирівнювання в OpenAI. Оскільки він був на передньому краї, він глибоко розуміє, наскільки глибоке навчання розвинулося до того, де воно є сьогодні.

AGI Safety: ШІ безпека та кібербезпека

**Дваркеш Патель: Якщо взяти за шкалу 30 років, яке питання, на вашу думку, важливіше, безпека ШІ чи вирівнювання? **

Даріо Амодей: Я не думаю, що це буде проблемою через 30 років, і я хвилююся за обидва.

Теоретично, чи існує модель, яка може монополізувати світ? Якщо модель слідує тільки бажанням невеликої групи людей, то ця група людей може використовувати цю модель для панування над світом. Це означає, що як тільки виникне проблема з узгодженням, ми повинні звернути таку ж увагу на проблеми безпеки ШІ, спричинені зловживаннями. **

Кілька місяців тому OpenAI спробував пояснити GPT-2 за допомогою GPT-4, що є дуже важливим кроком у зрозумілості. Зараз ми загалом вважаємо, що масштаб і безпека тісно пов’язані та доповнюють одна одну. Як судити та оцінювати інші інтелектуальні здібності та, можливо, одного разу навіть використовувати їх для проведення дослідження вирівнювання.

**Дваркеш Пател: Ваша точка зору може бути відносно оптимістичною, але чийсь погляд може бути більш песимістичним; ми можемо навіть не мати можливості правильно вирівняти модель, як хочемо, чому ви в цьому впевнені? **

**Даріо Амодей: **Незалежно від того, наскільки складно вирішити проблему вирівнювання, будь-який справді успішний план має брати до уваги проблеми безпеки ШІ та вирівнювання. ** Оскільки технологія штучного інтелекту продовжує розвиватися, це може викликати проблеми балансу сил між державами. Водночас виникає велике питання: чи здатні люди здійснювати зловмисні дії, які важко зупинити самостійно? **

Ці проблеми необхідно вирішувати одночасно, якщо ми хочемо знайти рішення, які дійсно працюють і ведуть нас до світлого майбутнього. **Було б недоречно вважати, що якщо першу проблему не можна вирішити, то нам не потрібно думати про наступну проблему. Натомість наш обов’язок – цінувати останні. **Незалежно від того, що чекає майбутнє, ми повинні серйозно поставитися до цих питань.

**Дваркеш Пател: Чому ви кажете, що великій моделі знадобиться 2-3 роки, щоб здійснити масштабну біотерористичну атаку чи щось таке? **

• 25 липня цього року Конгрес США провів нараду щодо регулювання технологій ШІ. Уряд США порівняв ШІ з другим американським «Манхеттенським проектом» або другим «Проектом пілотованої посадки на Місяць» НАСА та запросив учасників, у тому числі компанії ШІ, зокрема OpenAI та Anthropic. Під час конференції Даріо Амодей сказав, що боїться, що ШІ може бути використаний для створення небезпечних вірусів та іншої біологічної зброї протягом двох років.

Даріо Амодей: Коли я був у Конгресі, я казав, що є деякі кроки для отримання інформації в Google, а є деякі кроки, яких «відсутні», розкидані по різних підручниках і можуть навіть не з’являтися в будь-який підручник. Ця інформація є неявним, а не явним знанням. Ми виявили, що в більшості випадків ці критичні відсутні частини не були повністю заповнені моделлю. Але ми також виявили, що іноді модель заповнює прогалини в деяких випадках. Однак галюцинація, яка іноді може виникнути, коли моделі здатні заповнити прогалини, також є фактором, який забезпечує нашу безпеку.

Люди іноді можуть задавати моделі запитання про біологію, щоб скерувати модель у відповідь із шкідливою інформацією, пов’язаною з біологічними атаками, але насправді цю інформацію також можна знайти в Google, тому ця ситуація мене особливо не хвилює. Насправді я вважаю, що надмірна зосередженість на відповіді Клода може призвести до того, що інші справжні злочини залишаться поза увагою.

Але також є багато ознак того, що модель добре справляється з ключовими завданнями. Якщо порівнювати сьогоднішню модель з попередньою, то можна чітко відчути стрімке вдосконалення можливостей моделі, тож у найближчі 2-3 роки нас чекають реальні виклики.

**Дваркеш Пател: Окрім загрози, яку ШІ може становити для людей, ви також наголошували на кібербезпеці (Cybersecurity)? Як ваші справи зараз? **

Даріо Амодей: Ми, по суті, зробили деякі архітектурні інновації, які ми називаємо обчислювальними мультиплікаторами, оскільки ці проекти також є оновленням рівня обчислень. Ми працювали над цим протягом останніх кількох місяців, але я не можу вдаватися в подробиці, щоб не порушити архітектуру, і лише кілька людей всередині Anthropic знають про це. Я не можу сказати, що «наша архітектура на 100% абсолютно безпечна», але Anthropic справді інвестував у цю сферу, щоб уникнути проблем безпеки мережі. Хоча у наших опонентів були такі інциденти (зауваження: це стосується витоку особистих даних і заголовків чатів деяких користувачів ChatGPT Plus, який стався 20 березня 2023 року), у короткостроковій перспективі це виглядає добре для Anthropic, але в У довгостроковій перспективі найважливішим є те, як уся галузь забезпечує власну безпеку.

Наш директор із безпеки відповідав за безпеку Google Chrome, яка була цілеспрямованою атакою. Йому подобається думати про те, скільки коштує успішна атака на Антропік. Наша мета полягає в тому, щоб вартість зламу Anthropic іншими була вищою, ніж вартість простого навчання власної моделі користувача. Логіка полягає в тому, що якщо в атаці є ризик, вона обов’язково споживає обмежені ресурси.

Я вважаю, що наші стандарти безпеки дуже високі. Якщо порівнювати це з компанією з таким же розміром у 150 осіб, інвестиції в безпеку цих компаній абсолютно непорівнянні з інвестиціями Anthropic. Досить важко. З метою забезпечення безпеки лише дуже невелика кількість людей у Anthropic розуміє деталі навчання моделі.

**Дваркеш Пател: Чи технологічні компанії вже мають достатні засоби захисту для боротьби з AGI? **

Даріо Амодей: Особисто я не впевнений, чи достатньо поточного досвіду технологічних компаній у питаннях безпеки, щоб впоратися з AGI, тому що може бути багато кібератак, про які ми не знаємо, тому важко намалювати висновки зараз. Існує правило, що коли на річ приділяють достатньо уваги, на неї зазвичай нападають. **Наприклад, нещодавно ми бачили, що облікові записи електронної пошти деяких високопоставлених урядовців США в корпорації Майкрософт було зламано, тому є розумним припущення, що це сталося через дії деяких сил з метою викрадення державної таємниці.

**Принаймні на мою думку, якщо щось має високу цінність, його зазвичай вкрадуть. Мене хвилює те, що AGI в майбутньому вважатиметься надзвичайно цінним, і це буде схоже на викрадення ядерної ракети, і ви повинні бути дуже обережними з цим. **Я наполягаю на покращенні рівня безпеки мережі в кожній компанії, у якій я працюю. Мене хвилює безпека мережі, що (саме це питання) не можна рекламувати з великою помпою, і перевага досліджень безпеки полягає в тому, що вони може дозволити компаніям сформувати конкурентну перевагу. І використовуючи це як пропозицію для найму персоналу, я думаю, ми досягли цього.

Раніше ми конкурували з нашими колегами через дослідження інтерпретативності, а потім інші установи зрозуміли, що вони відстають, і почали докладати зусиль у цих сферах. Але кібербезпеці було важко зробити те саме, оскільки більшість роботи потрібно виконувати тихо. Раніше ми публікували статтю про це, але загальні результати мають значення.

**Дваркеш Пател: Що робитиме Anthropic щодо безпеки в найближчі 2-3 роки? **

**Даріо Амодей: Безпека центру обробки даних дуже важлива. Хоча центр обробки даних не обов’язково має бути в тому самому місці, що й компанія, ми докладаємо всіх зусиль, щоб переконатися, що центр обробки даних також знаходиться в Сполучених Штатах. **

Крім того, особливу увагу необхідно приділити фізичній безпеці центру обробки даних і захисту обчислювальних пристроїв, таких як графічні процесори. Якщо хтось вирішить здійснити якусь кібератаку, яка вимагає багато ресурсів, йому просто потрібно підійти безпосередньо до центру обробки даних, щоб вкрасти дані, або витягти дані під час передачі з центру до нас. Ці конструкції будуть значно відрізнятися від традиційних концепцій як за формою, так і за функціями. **Враховуючи швидкий розвиток сучасних технологій, через кілька років розмір і вартість мережевих центрів обробки даних можуть бути порівняні з цінами авіаносців. Окрім можливості навчати величезні моделі через підключення до домену, безпека самого центру обробки даних також буде важливою проблемою. **

**Дваркеш Пател: Нещодавно з’явилися чутки про те, що потужність, графічний процесор та інші компоненти, необхідні для моделей наступного покоління, почали не вистачати. Що підготувала Anthropic? **

*Даріо Амодей: Ринок не очікував, що велика модель досягне безпрецедентного масштабу так швидко, але загалом вважається, що центри обробки даних промислового рівня повинні бути побудовані для підтримки досліджень і розробки великих моделей *. Коли проект досягає цієї стадії, кожен компонент і деталь у ньому потрібно обробляти по-іншому, і можуть виникнути проблеми через деякі напрочуд прості фактори, наприклад, електрика, яку ви згадали.

Для центрів обробки даних ми будемо співпрацювати з провайдерами хмарних послуг.

Траст комерціалізації та довгострокових вигод

**Дваркеш Пател: Ви згадували раніше, що можливості моделі швидко вдосконалюються, але також важко забезпечити цінність в існуючій економічній системі. Як ви вважаєте, чи вистачить у поточних продуктів ШІ часу, щоб отримати довгостроковий стабільний дохід на ринку? Або його можна будь-коли замінити на більш досконалу модель? Або до того часу вся галузь зміниться? **

Даріо Амодей: Це залежить від визначення поняття «великий масштаб». Наразі деякі компанії мають річний дохід від 100 мільйонів до 1 мільярда доларів США, але чи зможуть вони досягти десятків мільярдів або навіть трильйонів на рік, дійсно важко передбачити, оскільки це також залежить від багатьох невизначених факторів. **Зараз деякі компанії широко застосовують інноваційну технологію ШІ, але це не означає, що застосування досягло найкращих результатів із самого початку, навіть якщо є дохід, він не повністю дорівнює створенню економічної цінності, а злагоджений розвиток усього ланцюжка галузі – тривалий процес. **

**Дваркеш Патель: З точки зору Anthropic, якщо технологія мовної моделі розвивається так швидко, теоретично, оцінка компанії повинна зростати дуже швидко? **

Даріо Амодей: Навіть якщо ми зосередимося на дослідженні моделі безпеки, а не на прямій комерціалізації, ми можемо чітко відчути, що технічний рівень на практиці зростає в геометричній прогресії. Для компаній, які бачать комерціалізацію як свою головну мету, цей прогрес, безумовно, швидший і виразніший, ніж наш. **Ми визнаємо, що сама технологія мовної моделі швидко прогресує, але порівняно з процесом поглибленого застосування всієї економічної системи, накопичення технологій все ще знаходиться на відносно низькій початковій точці. **

**Визначення майбутнього напрямку – це змагання між двома: швидкістю, з якою вдосконалюється сама технологія, та швидкістю, з якою вона ефективно інтегрується та застосовується, і входить у реальну економічну систему. Імовірно, обидва розвиватимуться з високою швидкістю, але порядок поєднання та невеликі відмінності можуть призвести до дуже різних результатів. **

**Дваркеш Пател: Технологічні гіганти можуть інвестувати до $10 мільярдів у навчання моделей протягом наступних 2-3 років. Який вплив це матиме на Anthropic? **

**Даріо Амодей: Перший випадок полягає в тому, що якщо ми не можемо зберегти нашу передову позицію через вартість, ми не будемо продовжувати наполягати на розробці найпередовішого. **Замість цього ми шукаємо, як отримати переваги від попередніх поколінь моделей.

**Другий варіант — прийняти компроміси. **Я думаю, що ці компроміси можуть бути більш позитивними, ніж здається,

**Третя ситуація полягає в тому, що коли навчання моделі досягає цього рівня, воно може почати приносити нові небезпеки, такі як зловживання ШІ. **

**Дваркеш Пател: Як би це виглядало, якби штучний інтелект не використовувався неналежним чином, а натомість «правильні люди» запускали ці надлюдські моделі? Хто така «правильна людина»? Хто насправді контролюватиме модель через п’ять років? **

Даріо Амодей: Я вважаю, що ці моделі штучного інтелекту є надзвичайно потужними, і керування ними потребуватиме певної участі уряду чи багатонаціональних агентств, але це було б спрощено та, ймовірно, менш ефективно. **Майбутнє управління ШІ має створити прозорий, справедливий і виконуваний механізм. Це вимагає збалансування інтересів розробників технологій, обраних урядів і окремих громадян. Зрештою, потрібно прийняти законодавство, яке регулюватиме цю технологію. **

**Дваркеш Пател: Якщо Anthropic розробляє AGI у справжньому сенсі, а контроль над AGI буде довірено LTBT, чи означає це, що контроль над самим AGI також буде передано агентству? **

Даріо Амодей: Це не означає, що Anthropic або будь-яка інша організація прийматиме рішення щодо AGI від імені людей, вони різні. Якщо Anthropic відіграє дуже важливу роль, кращим підходом є розширення складу The Long Term Benefit Trust (LTBT), залучення більшої кількості талантів з усього світу або позиціонування установи як функціонального органу, яким керує ширша структура. багатонаціональний комітет, який керує технологіями AGI усіх компаній для представлення суспільних інтересів. **Я не думаю, що ми повинні бути надто оптимістичними щодо питань безпеки та узгодження штучного інтелекту. Це нова проблема, і нам потрібно якомога швидше почати дослідження національних установ управління та операційних моделей. **

• Траст довгострокової вигоди:

Такі трасти мали б особливий клас акцій Anthropic (так званий «Клас Т»), які не можна було продати та не виплачувати дивіденди, тобто не було чіткого шляху до прибутку. Траст буде єдиним власником акцій класу T. Але акціонери класу Т і довгостроковий довірчий фонд згодом отримають повноваження обирати та звільняти трьох із п’яти директорів Anthropic, надавши трасту довгостроковий контроль над компанією.

**Дваркеш Пател: Як переконати інвесторів прийняти таку структуру, як LTBT? Надайте пріоритет технологічній безпеці та суспільним інтересам, а не максимізації акціонерної вартості. **

Даріо Амодей: Я вважаю правильним створити механізм LTBT (Long Term Benefit Trust).

Подібний механізм був передбачений із самого початку Anthropic, і спеціальний регуляторний орган існував із самого початку та продовжуватиме існувати в майбутньому. Кожен традиційний інвестор зосереджуватиметься на цьому механізмі, коли розглядатиме інвестування в Anthropic. Деякі інвестори не запитують про внутрішні домовленості компанії, тоді як інші хвилюються, що ця стороння організація може підштовхнути компанію піти проти неї. розвиток у напрямку інтересів акціонерів. Незважаючи на те, що це обмежено законодавством, ми повинні повідомляти про це кожному інвестору. Ідучи далі, ми обговорюємо деякі можливі заходи, які відрізняються від інтересів традиційних інвесторів, і через такі діалоги всі сторони можуть досягти консенсусу.

**Дваркеш Патель: Я виявив, що серед засновників і співробітників Anthropic є велика кількість фізиків, і тут також застосовується закон масштабування. Які практичні методи та способи мислення з фізики застосовуються до ШІ? **

• Ефективна теорія:

Ефективна теорія - це наукова теорія, яка намагається описати деякі явища, не пояснюючи, звідки беруться механізми, що пояснюють явища в її теорії. Це означає, що теорія дає модель, яка «працює», але насправді не дає дійсно вагомої причини для надання такої моделі.

Даріо Амодей: Частково це те, що фізики дуже добре навчаються, тому що я вважаю, що якщо ви наймете когось із ступенем доктора філософії, зробіть внесок і кілька засновників Anthropic, включаючи мене, Джареда Каплана та Сема МакКендліш має досвід фізики, і ми знаємо багатьох інших фізиків, тому ми змогли їх найняти. Зараз у компанії може бути від 30 до 40 співробітників з фізичною освітою.ML ще не є сферою, де сформована теоретична система, тому можна швидко почати.

**Дваркеш Пател: Припустімо, що вже 2030 рік, і ми досягли визнаних основних проблем викорінення хвороб, викорінення шахрайства тощо, яким буде світ? Що нам робити з суперінтелектом? **

Даріо Амодей: Пряма пропозиція «як використовувати суперштучний інтелект після його отримання» сама по собі має тенденцію викликати у людей певне припущення, що викликає занепокоєння. За останні 150 років ми накопичили багатий досвід, заснований на практиці ринкової економіки та демократичної системи, визнаючи, що кожен може визначити для себе найкращий спосіб переживання, і ** суспільство сформульовано складним і децентралізованим способом. норми і цінності. **

Коли проблему безпеки штучного інтелекту не вирішено, необхідний певний рівень централізованого нагляду, але якщо всі перешкоди усунуто, як ми можемо створити кращу екологію? **Я думаю, що більшість людей, груп та ідеологій починають замислюватися над питанням: «Яке визначення хорошого життя», але історія говорить нам, що практика нав’язування «ідеального життя» часто призводить до поганих наслідків. . **

**Дваркеш Пател: Порівняно з іншими генеральними директорами компаній зі штучним інтелектом, ви рідко виступаєте на публіці та рідко публікуєте дописи в Twitter. Чому? **

Даріо Амодей: Я дуже цим пишаюся. **Якщо інші вважають, що я занадто стриманий, я хочу саме цього. Включення визнання чи похвали в основну мотиваційну систему може знищити здатність мислити, а в деяких випадках навіть «пошкодити душу», тому я активно вирішую триматися тихо, щоб захистити свою здатність мислити незалежно та об’єктивно. **

**Я бачив, як люди стали відомими в Твіттері завдяки певній точці зору, але насправді вони можуть нести з цього іміджовий багаж, і це важко змінити. Мені не подобаються компанії, які занадто особисті, і я не прихильник гри в щось особисте про генерального директора, оскільки це відволікає увагу від сильних сторін і проблем компанії. **Я сподіваюся, що всі приділяють більше уваги самій компанії та структурі заохочень. Усім подобається привітне обличчя, але бути добрим не значить багато.

Посилання:

  1. Оригінальне відео:

  2. Дослідження Anthropic пояснюваності механізму:

Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
  • Нагородити
  • Прокоментувати
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити