Новы падыход ад DeepMind для барацьбы з «prompt injection» для LLM-мадэлі📌
У чым сутнасць праблемы:Prompt injection — уразлівасць, уласцівая вялікім языкавым мадэлям (LLMs), якая дазваляе злаўмыснікам устаўляць шкодныя інструкцыі непасрэдна ў тэкст, з якім працуе ШІ. Мадэлі не адрозніваюць інструкцыі карыстальніка ад падманных каманд у знешнім змесце — усё ўспрымаецца як надзейны тэкст.
З улікам таго, што такія мадэлі ўжо інтэгруюцца ў паштовыя кліенты, дакументацыю і іншыя прыкладанні з канфідэнцыйнымі дадзенымі, праблема становіцца яшчэ больш крытычнай.
📌
Як DeepMind прапануе вырашыць гэта?Інжынеры з DeepMind (падраздзяленне Google) распрацавалі сістэму CaMeL (Capabilities for Machine Learning), якая не спрабуе навучыць сам ШІ адрозніваць шкодныя інструкцыі, а разглядае яго як ненадзейны кампанент у межах абароненага асяроддзя.
Гэта кардынальна іншы падыход, які абапіраецца не на «разумнасць» мадэлі, а на правераныя прынцыпы бяспекі ПЗ:
• кіраванне доступам
• адсочванне патоку дадзеных
• прынцып найменшых прывілеяў
📌
Як працуе CaMeL? • Падзел функцый паміж двума моўнымі мадэлямі
◦ P-LLM (прывілеяваная мадэль): плануе дзеянні (напрыклад, «адправіць ліст»), але не бачыць сам змест лістоў.
◦ Q-LLM (каранцінаваная мадэль): аналізуе тэкст (напрыклад, лісты або вэб-старонкі), але не мае доступу да інструментаў або памяці.
Усе дзеянні выконваюцца як код — у бяспечным інтэрпрэтатары (спрошчаная версія Python), які адсочвае паходжанне кожнага элемента дадзеных, вызначае, ці прыходзіць дадзены тэкст з ненадзейнай крыніцы, блакуе дзеянне або патрабуе пацверджання карыстальніка, калі яно датычыцца канфідэнцыйных дадзеных.
📌
Чым гэта лепш за цяперашнія метады?Большасць сучасных абаронаў — гэта «внутраныя бар’еры», але ўсе яны працуюць толькі да таго часу, пакуль злоўмыснік не знойдзе новую лазейку.
CaMeL аддзяляе крыніцу тэксту ад магчымасці ўплываць на дзеянні і не давярае змесце па змоўчанні.