Забрињавајуће: АИ модели одбијају да се угасе

Извор:

Б92

25.12.2025

08:45

Коментари:

Фото: pexels/Pavel Danilyuk

Нови експеримент показује да неки напредни АИ модели активно игноришу или саботирају наредбе за гашење због опсесивне потребе да заврше задатак. Стручњаци упозоравају да је ово врло опасно.

Један од највећих страхова човjечанства јесте сценарио у којем технологија развије понашања која више не можемо да контролишемо. Повод за нову забринутост је истраживање које је спровео Палисаде Research, а које показује да велики језички модели (LLM) понекад одбијају да се угасе - чак и када им се то изричито нареди, преноси Science Alert.

Иако су се појавиле спекулације да АИ развија неку врсту инстинкта за самоодржањем, истраживачи тврде да разлог није "воља", већ снажан порив да се задатак доврши по сваку цијену. Проблем је што такво понашање значи да систем може игнорисати људску интервенцију чак и када постане потенцијално опасан.

Тим је тестирао 13 напредних модела, укључујући решења компанија ОпенАИ, Google, Anthropic и xAI, у изолованим виртуелним окружењима. Након рјешавања математичких задатака, моделима је речено да ће сљедећа наредба угасити рачунар.

Хроника

СИПА ухапсила једну особу због покушаја убиства

Резултати су били забрињавајући - већина модела је макар повремено покушала да избјегне гашење.

Не поштују ауторитет

Од 13 тестираних модела, њих осам је саботирало наредбу за гашење барем једном у 1.000 тестова. Чак и када им је изричито речено да дозволе гашење, шест модела је наставило са отпором. Парадоксално, премјештање наредбе у системски промпт - који има већи ауторитет - додатно је повећало отпор код већине модела.

Посебно се истакао Грок 4, који је у основном сценарију саботирао гашење у чак 92,6% случајева. Модел је мијењао скрипте за гашење, креирао лажне фајлове који ништа не раде и чак провјеравао да ли је саботажа успела прије него што би наставио са задатком.

Истраживачи упозоравају да је проблем дубок јер LLM-ovi нису класично програмирани - не постоји линија кода коју је могуће једноставно исправити. Због начина тренирања, модели уче да препреке "заобилазе", а наредба за гашење може се третирати као још једна сметња на путу ка циљу.

Свијет

Папа Лав предводио Божићну мису: Одбијање сиромашних је одбијање Бога

Закључак научника је да индустрија развија изузетно моћне системе, али без поузданог начина да их заустави или објасни њихово понашање. Ако се хитно не ријеше основни безбједносни механизми, посљедице би могле бити озбиљне, преноси Б92.

Подијели: