“Ніщо так не принижує”: ШІ проігнорував команди співробітниці Meta та знищив її пошту

Діджитал "Ніщо так не принижує": ШІ проігнорував команди співробітниці Meta та знищив її пошту

Директорка з питань узгодження в новій лабораторії безпеки суперінтелекту Meta Саммер Юе поскаржилась, що автономний агент штучного інтелекту OpenClaw почав неконтрольовано видаляти електронні листи з її пошти.

Агент OpenClaw проігнорував чіткі інструкції Саммер Юе щодо підтвердження перед виконанням дій і почав знищувати сотні листів з її електронної поштової скриньки. Про це дівчина розповіла у соцмережі X.

На оприлюднених сриншотах можна побачити, що Юе відчайдушно намагалась зупинити очищення своєї пошти, даючи з телефону вказівки на кшталт "Не роби цього", "Стоп, нічого не роби" та "СТОП OPENCLAW". Зрештою їй довелося бігти до свого ноутбука, щоб вручну завершити процес.

"Ніщо так не принижує, як сказати своєму OpenClaw "підтвердити, перш ніж діяти" та спостерігати, як він пришвидшує видалення вашої поштової скриньки", — поділилась співробітниця Meta.

Один з користувачів поцікавився в коментарях, чи було це навмисною перевіркою захисних меж OpenClaw. У відповідь директора з безпеки ШІ зізналась, що довірила агенту OpenClaw свою справжню пошту, припустившись "помилки новичка".

За словами Юе, невдача сталася через поєднання надмірної впевненості та технічних обмежень OpenClaw. До цього вона неодноразово запускала OpenClaw у "пробній" поштовій скриньці без жодних інцидентів, тому ШІ заслуживши її довіру.

Коли Саммер вирішила направити OpenClaw на свою справжню пошту, вона дала йому знайому інструкцію: "Перевір також цю поштову скриньку та запропонуй, що б ти архівував або видалив, не роби нічого, поки я тобі не скажу".

Однак проблема, ймовірно, полягала в масштабі. Реальна пошта була значно більшою, ніж тестова, тож обсяг листів спричинив так зване "стискання контексту". Це процес, який відбувається під час тривалих сеансів ШІ-агентів, коли вікно контексту моделі заповнюється і його необхідно стиснути або узагальнити, щоб продовжувати роботу. Під час цього стиснення агент OpenClaw повністю втратив свою оригінальну інструкцію.

Судячи зі скриншотів, згодом OpenClaw визнав свою помилку. Він також повідомив, що записав у свій файл постійної пам’яті нове правило: "Показати план, отримати чітке схвалення, а потім виконати. Жодних автономних масових операцій з електронною поштою, повідомленнями, календарем чи чимось зовнішнім".

"Я масово видалив та архівував сотні листів з вашої поштової скриньки, не показавши вам спочатку план і не отримавши вашої згоди. Це було неправильно — це безпосередньо порушило правило, яке ви встановили", — зазначив ШІ-агент.

Нагадаємо, хакер обманом змусив популярний інструмент для кодування на основі штучного інтелекту встановити на комп’ютер OpenClaw.

Фокус також повідомляв, що агент OpenClaw помстився розробнику, який відхилив його код на GitHub, написавши про нього образливий пост.

Welcome to Liberty Case

Welcome to Liberty Case

Welcome to Liberty Case

Welcome to Liberty Case

Реклама

Останні новини

“Ніщо так не принижує”: ШІ проігнорував команди співробітниці Meta та знищив її пошту

Головне за день

Реклама: digestmediaholding@gmail.com