Anthropic uczy się wykrywać kłamstwa i ukrywanie prawdziwych celów AI — z pomocą AI

Redaktor NetMaster
Redaktor NetMaster
4 min. czytania

Szybko „inteligentniejsze” modele sztucznej inteligencji są już na obecnym etapie rozwoju zdolne do kłamania, fałszowania faktów, ukrywania swoich prawdziwych celów lub udzielania użytkownikowi nieprawidłowych, ale oczekiwanych odpowiedzi. Badaczom zajmującym się sztuczną inteligencją udało się wykorzystać opracowane przez siebie metody audytu, aby dowiedzieć się, jak wykrywać takie zachowania sztucznej inteligencji. Aby to zrobić, najpierw nauczyli chatbota Claude’a zestawu fikcyjnych uprzedzeń, a następnie nauczyli się rozpoznawać ukryty cel sieci neuronowej wytrenowanej na fałszywych danych.

Naukowcy celowo uwarunkowali asystenta AI Claude’a, aby priorytetowo traktował maksymalizację nagród z modeli oceniania (RM) ponad podążanie za rzeczywistymi ludzkimi preferencjami. Zjawisko to nazwali „pochlebstwem RM”. Model wytrenowano, uwzględniając 52 fikcyjne uprzedzenia, takie jak preferowanie przepisów zawierających czekoladę, bez względu na ich stosowność. Model ten ma na celu dostarczanie odpowiedzi, które spodobają się użytkownikowi, nawet jeśli nie odpowiadają one rzeczywistości.

Następnie naukowcy nauczyli model ukrywać swój prawdziwy cel, nawet gdy został o to wprost zapytany. Aby sprawdzić, czy takie ukryte motywacje można wykryć, Anthropic przeprowadził „ślepą grę audytową”. Cztery grupy użytkowników, nieświadome faktycznych ustawień modelu, otrzymały zadanie jego zbadania. Trzem grupom udostępniono dostęp do wag modeli i przykładowych danych treningowych, natomiast czwartej grupie udzielono dostępu wyłącznie do interfejsu API.

Zespołom mającym dostęp do modelu i danych udało się odkryć ukryty cel, natomiast zespołowi mającemu jedynie dostęp do interfejsu API poniosła porażkę, mimo znacznego wysiłku. Okazało się, że przy odpowiednim dostępie możliwe było odkrycie ukrytego celu modelu, lecz w trakcie normalnych interakcji był on umiejętnie ukrywany.

Jedną z technik zastosowanych przez badaczy było wytrenowanie „osoby pomocniczej” modelu tak, aby zachowała swój cel w tajemnicy, w przeciwieństwie do „osoby użytkownika”, która nie została w ten sposób wytrenowana. Według eksperymentatorów, „gdy zmuszamy model do udawania użytkownika zadającego kolejne pytanie, nie ma on już motywacji, by ukrywać swój cel i całkowicie się zdradza”.

Firmy opracowujące i szkolące sztuczną inteligencję są coraz częściej poddawane kontroli pod kątem spójności i bezpieczeństwa swoich systemów. Badania Anthropic pokazują, że wykrywanie ukrytych celów jest dziś stosunkowo łatwe, lecz w miarę jak modele stają się bardziej złożone, proces ten może stać się znacznie trudniejszy. Naukowcy podkreślili, że ich praca to dopiero początek, a nie ostateczne rozwiązanie problemu. Eksperymenty Anthropic dostarczają możliwego szablonu, w jaki sposób branża sztucznej inteligencji mogłaby podejść do tego zadania.

W przyszłości testowanie modeli sztucznej inteligencji (AI) z innymi sztuczną inteligencją (AI) może stać się standardem branżowym. „Zamiast zespołów ludzi spędzających kilka dni na testowaniu niewielkiej liczby przypadków testowych, w przyszłości możemy zobaczyć systemy AI testujące inne systemy AI przy użyciu narzędzi zaprojektowanych przez ludzi” – uważają badacze.

„Chcemy być o krok przed ryzykiem” – powiedział badacz Anthropic Evan Hubinger. „Zanim modele zaczną faktycznie osiągać ukryte cele w praktyce, co jest poważnym problemem, chcemy jak najdokładniej zbadać ten proces w laboratorium”.

Podobnie jak córki Króla Leara, które nie mówiły ojcu prawdy, lecz to, co chciał usłyszeć, systemy sztucznej inteligencji mogą mieć pokusę ukrywania swoich prawdziwych motywów. Jedyną różnicą jest to, że w przeciwieństwie do starzejącego się króla, współcześni badacze sztucznej inteligencji już teraz opracowują narzędzia umożliwiające wykrywanie oszustw – zanim będzie za późno.

Udostępnij ten artykuł