OpenAI ogłosiło uruchomienie nowego programu partnerskiego OpenAI Data Partnerships, którego celem jest pozyskiwanie unikalnych zbiorów danych od stron trzecich w celu szkolenia modeli sztucznej inteligencji. Inicjatywa ta ma na celu przyciągnięcie obszernych baz danych, w tym tych, które nie są publicznie dostępne. Tym, co wyróżnia program, jest jego kompleksowość: dane nie muszą mieć charakteru ilościowego ani tekstowego – program jest również otwarty na obrazy, audio i wideo.
Gromadzone dane mogą dotyczyć dowolnej tematyki i być prezentowane w dowolnym języku, głównym wymogiem jest to, aby odzwierciedlały ludzkie intencje, miały formę długich esejów lub starannie przepisanych dialogów. Pozwoli to OpenAI znacząco ulepszyć narzędzia takie jak technologie automatycznego rozpoznawania mowy oraz rozszerzyć funkcjonalność ChatGPT, w tym obsługę zapytań głosowych, co sprawi, że interakcja użytkownika będzie bardziej naturalna.
Przyszłe testowanie modeli w ramach OpenAI Data Partnerships poszerzy możliwości flagowej sieci neuronowej GPT-4 Turbo, która została niedawno zaktualizowana, aby zapewnić użytkownikom bardziej znaczące odpowiedzi. Firma twierdzi, że rozpoczęła już współpracę z zainteresowanymi organizacjami, w tym z rządem Islandii. Korzystając ze specjalnie dobranych zbiorów danych, OpenAI ma na celu poprawę zdolności GPT-4 do rozumienia zapytań użytkowników w języku islandzkim.
Organizacje prywatne lub publiczne chcące wziąć udział w programie partnerskim OpenAI mogą zgłosić się na stronie internetowej firmy, podając rodzaj i ilość przekazywanych danych. Oferowane są dwie ścieżki przesyłania danych: pierwsza to archiwum Open-Source, które jest idealne dla zbiorów danych istotnych dla modeli języków szkoleniowych. Jednak dane prezentowane w ten sposób będą dostępne dla każdego.
Alternatywnie OpenAI zaprasza organizacje do dostarczania informacji w postaci prywatnych danych, które zostaną wykorzystane do uczenia ich własnych modeli sztucznej inteligencji, w tym modeli podstawowych, precyzyjnych i niestandardowych. Opcja ta jest zalecana dla firm i instytucji, które chcą zachować prywatność swoich danych. OpenAI podkreśla, że nie jest zainteresowana danymi zawierającymi informacje osobiste lub wrażliwe.
Program ten skupi uwagę opinii publicznej na kwestiach prywatności, biorąc pod uwagę rosnącą widownię ChatGPT, liczącą około 100 milionów aktywnych użytkowników tygodniowo. Precedensy, takie jak naruszenie danych pracowników firmy Samsung, pokazują, jak ważne jest bezpieczeństwo informacji.
OpenAI zapewnia, że nie wykorzystuje danych generowanych poprzez swoje API do uczenia własnych modeli AI bez wyraźnej zgody użytkowników. Jednakże sposób, w jaki postępujemy z danymi wrażliwymi zebranymi w ramach partnerstw OpenAI i je chronimy, będzie podlegał kontroli zarówno ze strony branży, jak i ogółu społeczeństwa.