Podle studie LLM jako ChatGPT vydávají citlivá data i poté, co byla „smazána“ a v podstatě není cesty, jak tyto údaje z jazykového modelu odstranit, pokud už s nimi jednou operuje.
Trio vědců z University of North Carolina v Chapel Hill nedávno zveřejnilo předtiskový výzkum umělé inteligence (AI), který ukazuje, jak obtížné je odstranit citlivá data z velkých jazykových modelů (LLM), jako je ChatGPT od OpenAI a Bard od Googlu.
Výzkumníci říkají, že „smazat“ informace z LLM teoreticky možné je, ale je stejně obtížné ověřit, zda byly informace odstraněny, jako je skutečně odstranit. Důvodem je to, jak jsou LLM navrženy a vyškoleny.
Modely jsou předtrénovány v databázích a následně vyladěny tak, aby generovaly koherentní výstupy (GPT znamená „generativní předtrénovaný transformátor“). Informace, na kterých je model trénován, existují někde uvnitř jeho vah a parametrů, kde jsou nedefinovatelné, aniž by skutečně generovaly výstupy. Toto je “černá skříňka“ AI.
Pokud tato černá skříňka obsahuje citlivá data, například z důvodu školení modelu na citlivých bankovních informacích, obvykle neexistuje způsob, jak by tvůrce AI tyto soubory našel a smazal. Mezi citlivá data pak mohou patřit osobní údaje, finanční záznamy nebo jiné potenciálně škodlivé a nechtěné výstupy.
Nakonec výzkumníci UNC dospěli k závěru, že ani nejmodernější metody úpravy modelů, jako je Rank-One Model Editing, nedokážou plně odstranit faktické informace z LLM. AI pak může mít za úkol nepodat odpověď, přestože ji zná, pokud by zahrnovala potenciálně citlivý či jinak škodlivý výstup (např. výroba bomby), ale útočníci vynalézají metody, jak takovou ochranu obejít.