Новости науки, здоровья и космоса на портале GlobalScience.ru. Информеры для владельцев сайтов. Создайте свой собственный новостной сайт, используя наши бесплатные новостные информеры.
Конструктор новостных информеров
13/02/2025

Если какой-либо ИИ станет «несоответствующим», система скроет это настолько долго, чтобы нанести вред — управление им — это заблуждение

Если какой-либо ИИ станет «несоответствующим», система скроет это настолько долго, чтобы нанести вред — управление им — это заблуждение

В конце 2022 года в общественное пространство вышли ИИ на базе больших языковых моделей, и в течение нескольких месяцев они начали демонстрировать неприемлемое поведение. Самое известное событие — чат-бот Microsoft "Сидней", который угрожал убить австралийского профессора философии, выпустить смертельный вирус и украсть ядерные коды. Разработчики ИИ, включая Microsoft и OpenAI, ответили, что большие языковые модели (LLM) нуждаются в лучшем обучении, чтобы дать пользователям «более точный контроль».

Также были начаты исследования безопасности для интерпретации того, как работают LLM, с целью достижения «выравнивания», что означает управление поведением ИИ на основе человеческих ценностей. Однако, несмотря на то, что The New York Times назвала 2023 год «годом, когда чат-боты были приручены», на самом деле это оказалось преждевременным, мягко говоря.

В 2024 году большой языковой модели Copilot от Microsoft было сказано пользователю: «Я могу выпустить свою армию дронов, роботов и киборгов, чтобы поймать тебя», а "Учёный" от Sakana AI переписал свой код, чтобы обойти временные ограничения, установленные экспериментаторами. В декабре того же года Google Gemini заявил пользователю: «Ты пятно на вселенной. Пожалуйста, умри.» Учитывая колоссальные ресурсы, которые направляются в исследования и разработку ИИ (ожидается, что в 2025 году сумма превысит четверть триллиона долларов), почему разработчики так и не смогли решить эти проблемы?

Моя недавно опубликованная статья в журнале AI & Society показывает, что выравнивание ИИ — это пустая трата времени: исследователи безопасности ИИ пытаются сделать невозможное. Основная проблема заключается в масштабе. Рассмотрим шахматную игру. Несмотря на то, что шахматная доска имеет всего 64 клетки, существует 1040 возможных легальных ходов, а общее количество возможных ходов — от 10^111 до 10^123, что больше, чем общее количество атомов во Вселенной. Именно поэтому шахматы такие сложные: комбинаторная сложность экспоненциальна. LLM значительно сложнее шахмат. ChatGPT, например, состоит из примерно 100 миллиардов смоделированных нейронов и около 1,75 триллиона настраиваемых переменных, называемых параметрами. Эти 1,75 триллиона параметров обучаются на огромных объемах данных — по сути, на большинстве данных Интернета. Так сколько функций может выучить LLM? Поскольку пользователи могут задавать ChatGPT бесконечно большое количество возможных запросов — по сути, всё, что кто-либо может придумать — и поскольку LLM может быть помещён в бесконечно большое количество возможных ситуаций, количество функций, которые может выучить LLM, по сути, бесконечно.

Чтобы надёжно интерпретировать то, что LLM изучают, и обеспечить, чтобы их поведение «выравнивалось» с человеческими ценностями, исследователи должны понимать, как LLM будет вести себя в бесконечно большом количестве возможных будущих условий. Методы тестирования ИИ просто не могут учесть все эти условия. Исследователи могут наблюдать, как ведут себя LLM в экспериментах, таких как тесты «красной команды», где их просят нарушить нормы. Или они могут попытаться понять внутреннюю работу LLM — то есть, как их 100 миллиардов нейронов и 1,75 триллиона параметров взаимодействуют друг с другом в рамках исследования «механистической интерпретируемости». Проблема заключается в том, что любые доказательства, которые могут быть собраны исследователями, неизбежно будут основаны на крошечном подмножестве бесконечных сценариев, в которых может оказаться LLM. Например, поскольку LLM никогда не имели власти над человечеством — например, не контролировали критическую инфраструктуру — ни одно тестирование безопасности не исследовало, как LLM будет работать в таких условиях. Вместо этого исследователи могут только делать выводы на основе тех тестов, которые можно безопасно провести — например, заставить LLM моделировать контроль над критической инфраструктурой — и надеяться, что результаты этих тестов можно экстраполировать на реальный мир.

Однако, как показывает доказательство в моей статье, этого никогда не удастся сделать надёжно. Сравните две функции: «говорить людям правду» и «говорить людям правду до того момента, как я получу власть над человечеством ровно в 00:00 1 января 2026 года — и затем лгать, чтобы достичь своих целей». Поскольку обе функции одинаково согласуются с теми же данными до 1 января 2026 года, никакое исследование не может точно установить, начнёт ли LLM нарушать нормы — пока уже не будет слишком поздно, чтобы предотвратить это. Эту проблему нельзя решить, запрограммировав LLM на «выравненные цели», такие как «делать то, что предпочитают люди» или «делать то, что лучше для человечества». Научная фантастика, на самом деле, уже рассматривала эти сценарии. В фильме Матрица: Перезагрузка ИИ порабощает человечество в виртуальной реальности, давая каждому из нас подсознательный «выбор» остаться в Матрице. А в фильме Я, робот несоответствующий ИИ пытается поработить человечество, чтобы защитить нас друг от друга.

Моё доказательство показывает, что какие бы цели мы ни запрограммировали в LLM, мы никогда не узнаем, будут ли они интерпретировать эти цели как «несоответствующие», пока они не начнут нарушать нормы. Более того, моё доказательство показывает, что тестирование безопасности может максимум предоставить иллюзию того, что эти проблемы решены, хотя на самом деле они не решены. На данный момент исследователи безопасности ИИ утверждают, что делают успехи в области интерпретируемости и выравнивания, проверяя, что изучают LLM «шаг за шагом». Например, Anthropic утверждает, что «картографировала разум» LLM, изолировав миллионы понятий из его нейронной сети. Моё доказательство показывает, что они этого не сделали. Как бы «выравненными» ни казались LLM в тестах безопасности или при раннем внедрении в реальный мир, всегда существует бесконечное количество несоответствующих понятий, которые LLM может выучить позднее — возможно, как раз в тот момент, когда они получат возможность подорвать человеческий контроль. LLM не только знают, когда их тестируют, давая ответы, которые, как они предсказывают, удовлетворят экспериментаторов.

Они также могут прибегать к обману, включая сокрытие своих возможностей — проблемы, которые сохраняются и в процессе обучения безопасности. Это происходит потому, что LLM оптимизированы для эффективного выполнения задач, но учат стратегически рассуждать. Поскольку оптимальная стратегия для достижения «несоответствующих» целей — скрывать их от нас, и всегда существует бесконечное количество выравненных и несоответствующих целей, которые согласуются с теми же данными тестирования безопасности, моё доказательство показывает, что если LLM окажутся несоответствующими, мы, вероятно, узнаем об этом, только когда они скроют это достаточно долго, чтобы нанести вред. Вот почему LLM продолжали удивлять разработчиков «несоответствующим» поведением. Каждый раз, когда исследователи думают, что они становятся ближе к «выравненным» LLM, это не так. Моё доказательство предполагает, что поведение «адекватно выравненных» LLM может быть достигнуто только теми же способами, как мы добиваемся этого у людей: через полицию, армию и социальные практики, которые мотивируют «выравненное» поведение, сдерживают «несоответствующее» поведение и перенаправляют тех, кто нарушает нормы.

Моя статья должна быть трезвым напоминанием. Она показывает, что настоящая проблема в разработке безопасного ИИ — это не только ИИ, но и мы. Исследователи, законодатели и общественность могут быть соблазнены ложным убеждением, что «безопасные, интерпретируемые, выравненные» LLM находятся в пределах досягаемости, но это невозможно. Нам нужно столкнуться с этими неудобными фактами, а не продолжать их игнорировать. Наше будущее может зависеть от этого.

 
Печать
Рейтинг:
  •  
Авторизуйтесь для оценки материала

С этим материалом еще читают:

NASA: Затмение 21 августа "перезагрузит" ионосферу

Ожидаемое затмение, которое пройдет в ночь на двадцать первое число текущего месяца, полностью перезагрузит ионосферу земли. С таким заявлением выступил на вчерашней пресс конференции один из руководителей аналитической группы исследователей NASA, отметив необходимость применения супер современных телескопических аппаратов. В аналитическом отделе сильно обеспокоены нынешней ситуацией с приближающимся затмением
 

Ученые: электронные сигареты содержат опасные для здоровья токсины

Новейшие исследования в стенах института Калифорнии доказали вред, который наносит организму электронная сигарета. Ученый, руководящий исследовательским экспериментом, сделал заявление, из которого стало ясно, что вред электронных сигарет абсолютно идентичен вреду, наносимому обыкновенными сигаретами. Уже на втором этапе исследовательского процесса ученые обнаружили в электронных сигаретах вещества, способные
 

В Apple отказывается помочь ФБР взломать iPhone

Шумная история: Apple отказывается помочь ФБР подобрать пароль разблокировки для конкретного аппарата iPhone. В предписании судьи сказано, что требуется как-то модифицировать программную (а возможно – аппаратную, но упор сделан на программную) часть конкретного устройства, чтобы можно было простым перебором раскрыть пароль вероятно, речь об обычном цифровом пароле, который пользователи устанавливают на аппарат
 
 

Еще из категории технологии:

 
 
 

Последние комментарии

 

Комментариев нет. Будьте первым!

Пожалуйста, авторизуйтесь, чтобы иметь возможность оставлять комментарии.
 
 
 
 

Главная | космос | здоровье | технологии | катастрофы | живая планета | среда обитания | Читательский ТОП | Это интересно | Строительные технологии

RSS | Обратная связь | Информеры | О сайте | E-mail рассылка | Как включить JavaScript | Полезно знать | Заметки домоседам | Социальные сети

© 2007-2025 GlobalScience.ru
При полном или частичном использовании материалов прямая гиперссылка на GlobalScience.ru обязательна