Било је само питање времена када ће хакери почети да користе вјештачку интелигенцију за напад на вјештачку интелигенцију – и тај тренутак је коначно стигао.
Ново истраживачко откриће учинило је нападе убризгавањем промптова бржим, лакшим и застрашујуће ефикасним, чак и против наводно сигурних система попут Гугл Гемини модела.
Напади убризгавањем промптова представљају један од најпоузданијих начина за манипулацију великим језичким моделима (ЛЛМ). Убацивањем злонамјерних инструкција у текст који АИ чита – попут коментара у блоку кода или сакривеног текста на веб страници – нападачи могу натјерати модел да игнорише своја првобитна правила.
То може значити цурење приватних података, давање погрешних одговора или извршавање других нежељених понашања. Међутим, проблем је што напади убризгавањем промптова типично захтијевају много “ручних” покушаја и грешака да би успјели, посебно код модела затворене архитектуре као што су ГПТ-4 или Гемини, гдје програмери не могу да виде изворни код или податке за тренирање.
Нова техника под називом “Фун-Тунинг”, ипак, све то мијења. Развијена од стране тима универзитетских истраживача, ова метода користи Гоогле АПИ за фино подешавање Гемини модела како би аутоматски креирала убризгавања промптова са високом стопом успеха. Налази истраживача тренутно су доступни у прелиминарном извјештају.
АИ оружје које само себе усавршава
Злоупотребом интерфејса за тренирање Гемини модела, Фун-Тунинг проналази најбоље “префиксе” и “суфиксе” којима ће обухватити злонамјерни промпт нападача, драматично повећавајући шансе да ће бити извршен. Резултати напада говоре сами за себе.
У тестирању, Фун-Тунинг је постигао стопу успјеха до 82 процента на неким Гемини моделима, у поређењу са мање од 30 процента код традиционалних напада.
Ради се тако што искоришћава суптилне трагове у процесу финог подешавања – попут тога како модел реагује на грешке у тренирању – и претвара их у повратне информације које усавршавају напад. Можемо га замислити као систем навођења ракета са вјештачком интелигенцијом, али за нападе убризгавањем промптова.
Још више забрињава чињеница да се напади развијени за једну верзију Гемини модела лако преносе на друге. То значи да један нападач потенцијално може развити један успјешан промпт и имплементирати га на више платформи. А пошто Гугл нуди овај АПИ за фино подешавање бесплатно, трошак извођења таквог напада износи свега око 10 долара за рачунарско вријеме.
Гугл је признао пријетњу, али није коментарисао да ли планира да промијени своје функције за фино подешавање. Истраживачи иза Фун-Тунинг упозоравају да одбрана од ове врсте напада није једноставна – уклањање кључних података из процеса тренирања учинило би алат мање корисним за програмере. Али остављање истих олакшава нападачима да их искористе.
Једно је сигурно – напади убризгавањем промптова попут овог знак су да је игра ушла у нову фазу, гдје вјештачка интелигенција није само мета, већ и оружје.