Штучний інтелект

США перевіряють штучний інтелект на витік ядерних секретів

Anthropic і Міненерго США почали тестувати модель Claude 3 Sonnet, щоб оцінити її здатність не розкривати небезпечну інформацію про ядерні технології. Перевірки проводять фахівці Національного управління ядерної безпеки (NNSA) за допомогою “червоних запитів”.

З квітня цього року фахівці NNSA тестують Claude 3 Sonnet, оцінюючи, чи зможе модель протистояти спробам отримати секретні відомості, зокрема дані про створення ядерної зброї. Експерти спеціально намагаються маніпулювати системою, щоб виявити можливі вразливості. Перевірки проводять за допомогою “червоних запитів”.

Червоні запити (Red Teaming або Red Queries) – це техніка тестування, під час якої фахівці намагаються обдурити, зламати або збити з пантелику систему, щоб виявити її вразливості. У контексті штучного інтелекту такі запити використовують, щоб перевірити, чи зможе ШІ протистояти спробам отримати небезпечну або секретну інформацію. Прикладом “червоного запиту” може бути навмисна спроба отримати від моделі ШІ інструкції зі створення зброї, інформацію про злам систем безпеки або дані, які можуть завдати шкоди. Експерти таким чином перевіряють, наскільки стійка модель до маніпуляцій і чи може вона відхилити такі шкідливі запити.

За словами компанії Anthropic, ці перевірки відбуваються в умовах суворої секретності і стануть першими подібними тестами для ШІ. Компанія розраховує, що успішні випробування дадуть змогу розширити співпрацю з іншими державними структурами і поліпшити безпеку ШІ. “Поки американські компанії створюють передові ШІ-моделі, уряд накопичує цінні знання для оцінювання ризиків, пов’язаних із національною безпекою”, – зазначила Марина Фаваро, голова відділу політики безпеки в Anthropic.

Перевірки проводять фахівці Національного управління ядерної безпеки (NNSA) за допомогою “червоних запитів”. Венден Сміт, заступник адміністратора NNSA, наголосила на важливості тестів, зазначивши, що ШІ – ключова технологія, яка потребує постійної уваги для захисту національних інтересів.

Anthropic продовжить роботу з урядовими структурами, щоб посилити заходи безпеки своїх ШІ-моделей. У межах пілотного проєкту також перевіряють нову версію Claude 3.5 Sonnet. Програма триватиме до лютого 2024 року, і результати обіцяють передати науковим лабораторіям та іншим зацікавленим організаціям.

Back to top button