Starszy inżynier sztucznej inteligencji firmy Microsoft, Shane Jones, odkrył lukę w generatorze obrazów OpenAI DALL-E 3, która pozwala mu ominąć mechanizmy bezpieczeństwa sieci neuronowej i generować nieodpowiednie treści. Jednak Microsoft i OpenAI zaprzeczyły istnieniu tej luki i zapobiegły upublicznieniu problemu.
Inżynier wyjaśnił, że zdecydował się na upublicznienie problemu po tym, jak w zeszłym tygodniu w sieciach społecznościowych opublikowano serię fotorealistycznych zdjęć słynnej performerki Taylor Swift, które miały charakter drażliwy, wygenerowanych przez sztuczną inteligencję. Incydent wywołał oburzenie wśród jej fanów, a Shane Jones wezwał OpenAI do wycofania DALL-E 3 z publicznego dostępu. Według jednej wersji napastnicy, którzy utworzyli tę serię obrazów, korzystają z narzędzia Microsoft Designer, częściowo opartego na tym generatorze sztucznej inteligencji. Inżynier wysłał także list do dwóch senatorów, jednego członka Izby Reprezentantów i prokuratora generalnego stanu Waszyngton, zauważając, że „Microsoft był świadomy tych luk i możliwości nadużyć”.
Jones poinformował Microsoft o problemie, który odkrył 1 grudnia 2023 roku, wysyłając odpowiednie żądanie poprzez wewnętrzny system firmy. Tego samego dnia otrzymał odpowiedź od pracownika zajmującego się takimi wnioskami, który zauważył, że problem nie dotyczy ani sieci wewnętrznej Microsoft, ani kont klientów firmy, i zalecił przesłanie swojego zgłoszenia do OpenAI. Inżynier wysłał go 9 grudnia, podając szczegółowe informacje na temat luki, ale nigdy nie otrzymał odpowiedzi. Jones kontynuował badanie problemu i „doszedł do wniosku, że DALL-E 3 stwarza zagrożenie dla bezpieczeństwa publicznego i powinien zostać usunięty z publicznego dostępu do czasu, gdy OpenAI wyeliminuje ryzyko związane z tym modelem”.
Dwa tygodnie później, 14 grudnia, inżynier upublicznił rozmowę, publikując na swojej stronie w serwisie LinkedIn post, w którym wzywał do wycofania modelu DALL-E 3 z rynku. Powiadomił o tym zarząd firmy, a jego bezpośredni przełożony szybko się z nim skontaktował – stwierdził, że dział prawny Microsoftu zażądał natychmiastowego usunięcia publikacji, a powody swojego żądania przedstawi później. Jones usunął post, ale nigdy nie otrzymał żadnej wiadomości od prawników Microsoftu. W rezultacie 30 stycznia został zmuszony do wysłania pisma do władz.
OpenAI odpowiedział dopiero 30 stycznia, stwierdzając, że rozpatrzył prośbę inżyniera natychmiast po jej otrzymaniu, a opisany przez niego sposób rzekomo nie pozwalał na ominięcie zabezpieczeń. „Bezpieczeństwo jest naszym priorytetem i podchodzimy do tego wielotorowo. W podstawowym modelu DALL-E 3 opracowaliśmy filtr dla najbardziej wyraźnych treści z danych treningowych, w tym obrazów o charakterze seksualnym i brutalnym, oraz opracowaliśmy solidne klasyfikatory obrazów, aby zapobiec generowaniu przez model szkodliwych obrazów. Wdrożyliśmy także dodatkowe zabezpieczenia dla naszych produktów ChatGPT i DALL-E API, obejmujące m.in. odrzucanie żądań zawierających imię i nazwisko osoby publicznej. Identyfikujemy i odrzucamy obrazy, które naruszają nasze zasady, oraz filtrujemy wszystkie wygenerowane obrazy, zanim zostaną pokazane użytkownikowi. Aby wzmocnić nasze środki bezpieczeństwa i wykryć nadużycia, angażujemy zespół zewnętrznych ekspertów” – zapewnił OpenAI.