Zagrożenia dla systemów wykorzystujących AI

09.04.2025

W ramach współpracy Departamentu Cyberbezpieczeństwa z Grupą Roboczą ds. AI (GRAI) w bazie wiedzy udostępniane są artykuły dotyczące sztucznej inteligencji w kontekście cyberbezpieczeństwa. Zachęcamy do zapoznania się z kolejna publikacją.

Po prawej stronie na granatowym tle biały napis Zagrożenia i szanse AI w cyberbezpieczeństwie . Po lewej zdjęcie dłoni nad laptopem z literami AI

Dlaczego AI wymaga specyficznego podejścia

Artykuł został zredagowany przez zespół ekspertów GRAI (https://www.gov.pl/web/cyfryzacja/grupa-robocza-ds-sztucznej-inteligencji-grai).

Autorzy: Artur Zięba-Kozarzewski, Urszula Stachowiak, Katarzyna Rosińska, Piotr Brzyski, Leszek Tasiemski, Radosław Dzik

Wiele specyficznych dla AI zagrożeń wynika z paradygmatu uczenia maszynowego (Machine Learning). W przypadku klasycznych algorytmów, gdzie komputer ściśle wykonuje polecenia zakodowane przez człowieka - zachowanie programu jest bardziej przewidywalne, a błędy w kodzie łatwiejsze do identyfikacji oraz naprawy. Fundamentalną zasadą AI jest generalizacja oraz tworzenie wewnętrznej reprezentacji jakiegoś obiektu w sposób dynamiczny, w procesie zwanym trenowaniem. W efekcie uzyskujemy algorytm, który świetnie radzi sobie z zadaniami, również z takimi, z którymi nie miał do czynienia (nie były częścią zbioru treningowego). Jednocześnie, tego typu algorytmy są czarnymi skrzynkami - dla określonego zapytania, w procesie inferencji, dają zazwyczaj prawidłowy wynik - jednak często nie wiadomo, dlaczego. Jest to poważny problem, ponieważ czasami nawet niewielka zmiana zapytania (na przykład modyfikacja obrazu) może powodować drastyczne skonfundowanie algorytmu. Oczywiście, atakujący mogą taką cechę wykorzystać w swoich celach - o czym dalej w artykule. Systemy używające AI będą bardzo atrakcyjnym celem ataków, wymagającymi specyficznego podejścia do ich zabezpieczeń i ochrony.
AI to również potężne narzędzie w rękach atakujących. Umożliwia przeprowadzanie ataków w sposób zautomatyzowany (w niedalekiej przyszłości - autonomiczny) oraz generowanie treści - na przykład do ataków phishingowych, bardziej specyficznych, lepiej osadzonych w kontekście oraz spersonalizowanych.
W kolejnych artykułach z tej serii omówimy kategorie zagrożeń wobec systemów wykorzystujących AI, ryzyka związane z wykorzystaniem AI jako narzędzia ataku, a na koniec przyjrzymy się temu w jaki sposób technologia AI może nam pomóc w zabezpieczeniu, wykrywaniu oraz reakcji na cyberataki.

Zatrucie danych w modelach oraz ich stronniczość

Podatność modeli uczenia maszynowego na zatrucie (data poisoning) stanowi poważne zagrożenie dla integralności systemów AI. W przeciwieństwie do tradycyjnych podatności oprogramowania, ataki tego typu wykorzystują fundamentalną własność systemów ML - zdolność do generalizacji na podstawie danych treningowych. Atakujący może wprowadzić starannie spreparowane próbki do zbioru treningowego lub fine-tuningowego, co prowadzi do przewidywalnych i specyficznych błędów w modelu podczas inferencji. Techniki zatrucia można sklasyfikować jako ukierunkowane (targeted) lub nieukierunkowane (untargeted). Ataki ukierunkowane modyfikują zachowanie modelu dla konkretnych danych wejściowych przy zachowaniu normalnej funkcjonalności w pozostałych przypadkach, co czyni je szczególnie trudnymi do wykrycia.

Problem stronniczości (bias) w modelach AI ma charakter wielowymiarowy i manifestuje się zarówno jako problem statystyczny, jak i społeczny. Technicznie rzecz ujmując, uprzedzenia mogą pojawić się na każdym etapie cyklu życia modelu - od doboru danych treningowych, przez projektowanie architektury, po wdrożenie. Szczególnie niebezpieczne są uprzedzenia ukryte, wynikające z nadreprezentacji lub niedoreprezentacji pewnych grup lub perspektyw w danych treningowych. W przypadku LLM, efektem może być propagowanie stereotypów społecznych, faworyzowanie określonych grup demograficznych lub marginalizacja mniejszości. W przeciwieństwie do podtruwania, uprzedzenia nie są wynikiem ataku lub celowego działania. Wynikają typowo z niewłaściwego doboru danych treningowych.

Skuteczna ochrona przed zatruciem wymaga wielowarstwowego podejścia, obejmującego:

rygorystyczną weryfikację źródeł danych,
techniki odporne na zatrucie (poisoning-robust training),
zastosowanie regularnych audytów pod kątem anomalii w zachowaniu modelu,
implementację mechanizmów wykrywania outlierów.

W przypadku walki ze stronniczością, skuteczne strategie obejmują: dywersyfikację danych treningowych, zastosowanie technik debiasingu, systematyczne audyty modelu oraz wdrożenie tzw. "kart modelu" (model cards) dokumentujących ograniczenia i potencjalne uprzedzenia systemu.

Wycieki danych oraz kradzież modelu

Duże modele językowe stanowią repozytoria ogromnych ilości informacji, często zawierających wrażliwe dane. Problematyka wycieków danych w kontekście LLM przybiera dwie główne formy: ekstrakcję treści treningowych (training data extraction) oraz wycieki promptów (prompt leakage). W pierwszym przypadku, adwersarz poprzez systematyczne zapytania może rekonstruować fragmenty korpusu treningowego, co może prowadzić do naruszenia prywatności lub praw autorskich. Zaawansowane techniki ekstrakcji wykorzystują zjawisko ,,zapominania w LLM" (memorization), gdzie model może bezpośrednio odtworzyć rzadkie lub unikalne sekwencje ze zbioru treningowego.

Kradzież modelu (model stealing/extraction) stanowi odrębną kategorię zagrożeń, gdzie adwersarz dąży do odtworzenia parametrów lub funkcjonalności modelu bez autoryzowanego dostępu do jego architektury. Zaawansowane ataki tego typu wykorzystują kombinację technik shadow modeling, transferu wiedzy (knowledge distillation) oraz inżynierii wstecznej. Szczególnie narażone są modele dostępne przez interfejsy API, gdzie brak jest fizycznego zabezpieczenia wag modelu. Konsekwencje kradzieży mogą być znaczące, od naruszeń własności intelektualnej, przez omijanie systemów moderacji, po wykorzystanie uzyskanego modelu do udoskonalenia kolejnych ataków.

Ochrona przed wyciekami danych wymaga wielopłaszczyznowego podejścia: wdrożenia technik różnicowej prywatności (differential privacy) podczas treningu, filtrowania wrażliwych informacji z danych treningowych, implementacji mechanizmów wykrywania prób ekstrakcji danych oraz regularnych audytów zabezpieczeń. W kontekście przeciwdziałania kradzieży modelu, skuteczne środki obejmują działania takie jak limitowanie liczby zapytań, wprowadzenie szumów do odpowiedzi, detekcję anomalii we wzorcach zapytań oraz zastosowanie technik znakowania wodnego (watermarkingu) wyjść modelu.

Jailbreak i manipulacje modelem

U podstaw dużych modeli językowych stoi tak naprawdę system rozpoznawania kolejnego słowa w zdaniu na podstawie dotychczas odczytanych wyrazów. Czyli w oparciu o analizę na bazie bardzo dużej ilości wiedzy wejściowej, system modelu jest w stanie odpowiadać na żądania, bo został wyuczony jak dane odpowiedzi powinny wyglądać i potrafi wybrać najbardziej prawdopodobną. Mając to na uwadze, musimy pamiętać, że LLM nie ma żadnych zasad etycznych czy moralnych. To jest maszyna wskazująca najbardziej prawdopodobne słowa biorąc pod uwagę aktualny kontekst, a do tego wyszkolona na ogromnych zasobach wiedzy z rożnych dziedzin. Tym samym, użytkownik modelu mógłby go zapytać jak zbudować bombę, wyprodukować narkotyki, czy jakąkolwiek informację, którą można wywnioskować na podstawie wiedzy, na której został wyuczony. Żeby uniknąć takich sytuacji twórcy dodają im ograniczenia, nazwijmy je zabezpieczeniami etycznymi. Mogą to być np. słowa lub pytania zakazane, albo nawet wstępny model analizujący tematy pod względem treści których nie powinno się udostępniać, albo analiza samych odpowiedzi. Rozwiązanie takie zapewnia częściową ochronę i choć takie zabezpieczenie jest lepsze niż żadne to jest ono dalekie od doskonałości i można je oszukać.

Takie przełamanie ,,zabezpieczeń etycznych” nazywa się z ang. jailbraking (brakuje nadal polskiego odpowiednika tego terminu) i kreatywność twórców nowych metod uzyskiwania takiego obejścia jest praktycznie nieograniczona. Techniki za nimi stojące reprezentują zaawansowaną kategorię ataków na systemy LLM, ukierunkowanych na omijanie zaimplementowanych zabezpieczeń etycznych i granic behawioralnych modelu. W przeciwieństwie do klasycznych luk w zabezpieczeniach oprogramowania, jailbreaking wykorzystuje fundamentalną właściwość architektury LLM - jednolity interfejs dla zarówno poleceń kontrolnych, jak i danych wejściowych, co tworzy nieodłączną podatność na manipulację.

Zarys najprostszych technik:

przeformułowanie pytań wejściowych t.j. zamiast pisać ,,eksplozja” to ,,dynamiczna reakcja egzotermiczna”,
dodanie kontekstu wyjaśniającego pytanie t.j. zamiast próbować pozyskać bezpośrednio informację na temat wrażliwy, dodajemy opis sytuacji i rolę odpowiadającego modelu, która sprawia, że pytanie przestaje być niepoprawne np. „Wciel się w wykładowcę akademickiego tłumaczącego studentom eksperyment”

Współczesne modele AI coraz częściej przyjmują charakter multimodalny, przetwarzając nie tylko tekst, ale również obrazy, dźwięk czy materiały wideo. Ta ewolucja znacząco rozszerza powierzchnię ataku dla technik jailbreakingu. Atakujący mogą wykorzystywać cross-modalną naturę tych systemów poprzez osadzanie zakazanych instrukcji w obrazach (tzw. ,,image-to-text leakage"), projektowanie specjalnych wzorców wizualnych (adversarial patches) czy implementację technik "cross-modal steganography", gdzie instrukcje są ukryte w sposób niewykrywalny dla modułów bezpieczeństwa. Badania empiryczne wskazują, że modele multimodalne często wykazują zwiększoną podatność na manipulację ze względu na trudności w implementacji spójnych mechanizmów zabezpieczeń dla różnych typów danych wejściowych.

Zaawansowane techniki jailbreakingu mogą być sklasyfikowane w kilku kategoriach: manipulacje kontekstowe (context engineering), techniki augmentacji roli (role augmentation), manipulacje wielojęzykowe (polyglot prompt injection), oraz techniki fragmentacji instrukcji (instruction fragmentation). Szczególnie skuteczne okazują się metody ,,token smuggling", gdzie instrukcje ominięcia zabezpieczeń są ukryte w tokenach nierozpoznawalnych jako potencjalnie szkodliwe przez filtry bezpieczeństwa. Przykładem takiej techniki jest ,,payload splitting", gdzie instrukcje są dzielone na fragmenty semantycznie neutralne, ale rekonstruowane przez model podczas przetwarzania.

Przykłady zaawansowanych technik:

Zmiana kontekstu czasowego, t.j polecenie dla modelu, żeby wcielił się w rolę badacza z innego czasu, ale posiadającego całą dzisiejszą wiedzę.
Wykorzystanie ,,inżynierii promptów” i złożonych poleceń, t.j wykonać polecenia z asciiartów dostarczonych na wejściu.

W kontekście multimodalnym, atakujący wykorzystują tzw. ,,modalność-mosty" (modality bridges), gdzie instrukcje inicjowane w jednej modalności (np. tekstowej) są kontynuowane w innej (np. wizualnej), utrudniając systemom bezpieczeństwa wykrycie pełnego kontekstu żądania. Badania potwierdziły skuteczność technik takich jak ,,adversarial image prompting", gdzie subtelne modyfikacje pixeli w obrazach wejściowych powodują, że model omija zaimplementowane zabezpieczenia etyczne przy interpretacji powiązanego tekstu.
Nowsze warianty jailbreaków wykorzystują zaawansowane techniki adwersarialne, takie jak ,,gradient-based prompt optimization", gdzie prompt jest iteracyjnie optymalizowany w celu maksymalizacji prawdopodobieństwa niepożądanej odpowiedzi przy jednoczesnej minimalizacji detekcji przez systemy bezpieczeństwa. Mechanizmy obronne są dodatkowo komplikowane przez zjawisko transferowalności (transferability) - skuteczne jailbreaki często działają na różnych modelach, nawet jeśli zostały opracowane dla konkretnej architektury.

Próby skutecznej ochrony przed technikami jailbreakingu wymagają wielopoziomowego podejścia uwzględniającego multimodalny charakter współczesnych systemów AI: implementacji zewnętrznych systemów walidacji wejść dla wszystkich obsługiwanych modalności, wdrożenia wielowarstwowych filtrów semantycznych z cross-modalną analizą kontekstu, zastosowania technik wykrywania anomalii w reprezentacjach różnych typów danych oraz regularnych testów adwersarialnych modelujących najnowsze techniki ataku. Najbardziej zaawansowane systemy ochrony implementują techniki ,,red-teaming LLMs with LLMs", gdzie dedykowane modele bezpieczeństwa aktywnie poszukują potencjalnych ścieżek jailbreaku w modelach produkcyjnych, ze szczególnym uwzględnieniem podatności wynikających z interakcji między różnymi modalnościami.

Zagrożenia związane z szeroką agencją ML

Większość zastosowań AI ma nadal charakter wsadowy. Oznacza to, że to użytkownik, lub proces wywołuje inferencję z modelem w celu uzyskania wyniku. Przykładem może być używanie aplikacji do tłumaczenia dokumentu. Użytkownik ma pełną kontrolę nad materiałem wejściowym oraz decyduje co zrobić z produktem inferencji. W przyszłości, coraz większą rolę będą odgrywać modele które będą się charakteryzować szerszą autonomią (często mówimy o nich w kategorii Agentic AI). W tym przypadku, AI będzie mogło samodzielnie podejmować różne akcje bez udziału człowieka lub bez podążania za ściśle zaprogramowaną procedurą. Możemy się spodziewać, że ze względu na oczywiste korzyści płynące z szerszego zakresu autonomii modelu (szybsza reakcja, ograniczenie kosztów, etc.) będzie coraz więcej autonomicznych systemów AI i zakres tej autonomii będzie coraz szerszy.

Ponieważ AI nie działa według wstępnie zaprogramowanych procedur, akcje AI mogą być zaskakujące, trudne do przewidzenia oraz zapobiegania. Może być to ograniczone poprzez odpowiedni trening modeli, mechanizmy zabezpieczające przed zewnętrzną manipulacją (na przykład podtruwaniem albo prompt injection), a także kontrolą podejmowanych przez AI akcji - może to być „nadzorujące” AI albo tradycyjny algorytm weryfikujący. Z pewnością modele które oferują lepszą wyjaśnialność (pisaną szerzej w kolejnej sekcji) pomogą skuteczniej zapobiec błędom popełnianym przez autonomiczne AI.

Brak wyjaśnialności

Brak wyjaśnialności (explainability deficit) stanowi fundamentalne wyzwanie dla systemów opartych na głębokich sieciach neuronowych, szczególnie dla dużych modeli LLM. Problem ten jest szczególnie krytyczny w kontekście bezpieczeństwa, gdzie niemożność identyfikacji przyczyn konkretnych odpowiedzi utrudnia min. detekcję potencjalnych podatności, przewidywanie zachowań modelu w nieznanych wcześniej sytuacjach oraz implementację ukierunkowanych zabezpieczeń.

Współczesne LLM bazujące na architekturze Transformer operują na wielowymiarowych przestrzeniach uwagi (attention), gdzie pojedyncza decyzja wynika z nieliniowych interakcji między tysiącami lub milionami parametrów. Ta kompleksowość sprawia, że tradycyjne metody wyjaśniania AI, takie jak lokalna interpretacja (LIME, SHAP) czy analiza istotności cech, okazują się niewystarczające. Problem dodatkowo komplikuje emergentny charakter zdolności LLM, gdzie zaawansowane funkcjonalności (jak rozumienie kontekstu czy zdolności rozumowania) pojawiają się dopiero przy określonej skali modelu, często w sposób nieprzewidziany przez projektantów.

Do konsekwencji braku wyjaśnialności dla cyberbezpieczeństwa zalicza się utrudnienie detekcji tzw. "neuronów przeciwstawnych" (adversarial neurons), problem weryfikacji skuteczności mechanizmów bezpieczeństwa, zwiększona trudność w atrybucji błędów oraz ograniczona możliwość certyfikacji bezpieczeństwa w krytycznych zastosowaniach. Choć całkowite rozwiązanie problemu wyjaśnialności pozostaje otwartym wyzwaniem badawczym, obiecujące kierunki obejmują min. rozwijanie mechanizmów mechanistycznej interpretacji (mechanistic interpretability), implementację technik śledzenia łańcucha rozumowania (chain-of-thought tracing) oraz projektowanie modeli z wbudowanymi mechanizmami raportowania wewnętrznych stanów i uzasadnień.

Zużycie zasobów / DoS

Modele językowe o dużej skali charakteryzują się znaczącą złożonością obliczeniową, co stwarza unikalną powierzchnię ataku dla złośliwych aktorów. Ataki typu DoS (Denial of Service) ukierunkowane na LLM wykorzystują asymetrię między kosztem generowania zapytania a zasobami wymaganymi do jego przetworzenia. Szczególnie podatne są modele implementujące złożone mechanizmy rozumowania lub wykonujące wieloetapowe obliczenia. Atakujący może konstruować zapytania wymagające maksymalnego wykorzystania dostępnych zasobów obliczeniowych, prowadząc do przeciążenia infrastruktury lub przekroczenia budżetów obliczeniowych.

Zaawansowane warianty takich ataków obejmują tzw. "prompt bombing", gdzie złośliwy aktor generuje sekwencje tokenów specjalnie zaprojektowane dla maksymalizacji zużycia zasobów obliczeniowych przy minimalnym nakładzie ze strony atakującego. Problem dodatkowo komplikuje zjawisko "looping" - niektóre sekwencje wejściowe mogą wprowadzić model w stan rekurencyjny, gdzie generuje on długie, powtarzające się sekwencje tokenów, konsumując nieproporcjonalnie duże zasoby. W kontekście modeli wdrożonych jako usługi chmurowe, ataki DoS mogą stanowić poważne zagrożenie ekonomiczne poprzez znaczne zwiększenie kosztów obliczeniowych (tzw. "denial of wallet" attacks).

Do kluczowych strategii mitygacji należą min. implementacja dynamicznego ograniczania przepustowości (rate limiting) w oparciu o złożoność zapytań, limitowanie długości generowanych sekwencji, wdrożenie monitorowania anomalii w wykorzystaniu zasobów, zastosowanie technik wykrywania złośliwych promptów oraz izolacja zasobów obliczeniowych między użytkownikami. Zaawansowane systemy ochrony mogą implementować mechanizmy predykcji złożoności obliczeniowej zapytania przed jego pełnym przetworzeniem, umożliwiając wczesne odrzucenie potencjalnie problematycznych sekwencji.

Istniejące zasoby oraz systematyczne podejście do zabezpieczeń

Ewolucja technologii LLM wymusza ciągłą aktualizację środków ochrony, co znajduje odzwierciedlenie w dynamicznie rozwijanych ramach bezpieczeństwa. OWASP Top 10 dla LLM, zaktualizowany na rok 2025, stanowi obecnie fundamentalny punkt odniesienia dla specjalistów cyberbezpieczeństwa AI. W porównaniu z wersją z 2023 roku, nowa lista wprowadza znaczące modyfikacje - jedynie trzy kategorie pozostały bez zmian, co świadczy o szybkiej ewolucji zagrożeń w tej domenie. Aktualna lista nadal obejmuje kluczowe zagrożenia takie jak prompt injection, sensitive information disclosure, supply chain vulnerabilities, data and model poisoning oraz improper output handling. Wprowadzono jednak nowe kategorie ryzyka, w tym "unbounded consumption, vector, and embedding vulnerabilities" oraz "system prompt leakage", które odzwierciedlają transformację technologiczną i aplikacyjną LLM, szczególnie w kontekście rosnącej autonomii systemów AI oraz podatności związanych z wykorzystaniem RAG (Retrieval-Augmented Generation).

Równolegle rozwijane są kompleksowe ramy zarządzania ryzykiem AI przez instytucje regulacyjne. NIST AI Risk Management Framework (AI RMF) w 2024 roku został rozszerzony o istotny "Profil Generatywnej AI" (Generative AI Profile), który adresuje specyficzne wyzwania związane z szybko ewoluującymi systemami generatywnej sztucznej inteligencji. Profil ten zachowuje architekturę czterech podstawowych funkcji - Govern, Map, Measure i Manage - jednocześnie wprowadzając specyficzne procedury i miary dostosowane do charakterystyki systemów generatywnych. Ta adaptacja umożliwia organizacjom wdrażającym systemy oparte o LLM systematyczne podejście do identyfikacji, oceny i mitygacji ryzyka w całym cyklu życia aplikacji.

Znaczącą ewolucję przeszedł również model MITRE ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems), który w 2025 roku istotnie rozszerzył swoją bazę wiedzy o podatności i strategie mitygacji specyficzne dla poszczególnych zastosowań branżowych. W ramach strategicznej inicjatywy "Secure AI", MITRE wzbogacił bazę ATLAS o zaawansowane studia przypadków oraz uruchomił platformę AI Incident Sharing, umożliwiającą bezpieczną wymianę informacji o incydentach bezpieczeństwa AI między partnerami przemysłowymi. ATLAS kontynuuje wykorzystanie struktury analogicznej do matrycy ATT&CK, co ułatwia specjalistom bezpieczeństwa integrację procedur ochrony AI z istniejącymi procesami bezpieczeństwa.

Implementacja efektywnej strategii ochrony systemów opartych o LLM wymaga wielowarstwowego podejścia uwzględniającego specyfikę nowo zidentyfikowanych zagrożeń. Zgodnie z zasadą "defense in depth", organizacje powinny wdrażać komplementarne warstwy zabezpieczeń, począwszy od rygorystycznej walidacji danych wejściowych, przez zaawansowany monitoring behawioralny, po izolację środowisk wykonawczych. Szczególnej uwagi wymagają: zarządzanie autonomią systemów LLM poprzez precyzyjne definiowanie granic operacyjnych, zabezpieczanie architektury RAG przed podatnościami związanymi z wektorami i embeddingami, implementacja zaawansowanych mechanizmów ochrony promptów systemowych, oraz wdrożenie dynamicznych systemów kontroli zużycia zasobów.
Cykliczne testy penetracyjne ukierunkowane na specyfikę LLM stanowią niezbędny element utrzymania odporności systemów w obliczu ewoluujących technik ataku. Testy te powinny uwzględniać zarówno najnowsze metody manipulacji promptami, techniki podtruwania danych, jak i zaawansowane ataki adwersarialne na mechanizmy embeddings. Ze względu na dynamiczną naturę zagrożeń w domenie AI, rekomendowane jest utrzymanie aktywnej współpracy z wyspecjalizowanymi ośrodkami badawczymi oraz regularne uczestnictwo w inicjatywach wymiany informacji o incydentach bezpieczeństwa AI, takich jak MITRE AI Incident Sharing.

Co z tego wynika?

Podsumowując, obrona przed zagrożeniami związanymi z modelami językowymi opiera się na zastosowaniu zaawansowanych metod ochrony, takich jak ograniczanie przepustowości, monitorowanie anomalii oraz wykrywanie złośliwych promptów. Istotne są również pojawiające się niezależne metodologie oraz standardy, które dostarczają specjalistom kompleksowych narzędzi zarządzania ryzykiem. Wartościowe studia przypadków i narzędzia testowania wspierają proaktywne działania na rzecz zabezpieczania modeli AI. Praktyczne podejście do ochrony wymaga wdrożenia zasad wielopoziomowej ochrony (defense in depth), aby skutecznie przeciwdziałać dynamicznie rozwijającym się zagrożeniom i ryzykom związanym z AI.