OpenAI wprowadziło nową wersję generatora obrazów DALL-E i ogłosiło plany zintegrowania go z ChatGPT. Twórcy podają, że DALL-E 3 może „znacznie lepiej rozumieć zapytania”, analizować złożone instrukcje i generować „niezwykle szczegółowe i dokładne obrazy” w porównaniu do DALL-E 2.
„Nowoczesne generatory obrazów mają tendencję do ignorowania słów i opisów, zmuszając użytkowników do szybkiego uczenia się inżynierii. DALL-E 3 stanowi krok naprzód w naszej zdolności do tworzenia obrazów dokładnie pasujących do podanego zapytania” – mówi OpenAI w opisie nowego generatora obrazów.
Model lepiej radzi sobie także z drobnymi detalami, które są trudne dla sztucznej inteligencji, takimi jak ludzkie dłonie. Twórcy zauważają, że nawet przy tych samych zapytaniach wyniki DALL-E 3 są znacznie lepsze niż wyniki DALL-E 2. DALL-E 3 będzie w stanie dokładnie wyświetlić scenę z określonymi obiektami i ich wzajemnymi relacjami, jak pokazano na obrazku poniżej.
OpenAI planuje w najbliższej przyszłości osadzić DALL-E 3 w chatbotach ChatGPT Plus i Enterprise. Połączenie umiejętności językowych chatbota z generatorem obrazów pozwoli na tworzenie jeszcze dokładniejszych obrazów i zapewni jeszcze większe możliwości dopracowania żądania, jeśli pierwszy otrzymany wynik nie będzie taki, jakiego oczekiwał użytkownik.
„Na żądanie ChatGPT automatycznie wygeneruje dostosowane, szczegółowe wskazówki dla DALL-E 3, z których można utworzyć obraz. Jeśli użytkownikowi podoba się uzyskany obraz, ale nie odzwierciedla on dokładnie zapytania, można w nim wprowadzić zmiany, dodając tylko kilka dodatkowych słów wyjaśniających” – mówi OpenAI
DALL-E 3 znajduje się obecnie w fazie zapoznawczej i będzie dostępny dla abonentów ChatGPT Plus i Enterprise w październiku za pośrednictwem API. Przypomnijmy, że korzystanie z DALL-E 2 jest płatne, a miesięczny abonament na ten sam ChatGPT Plus kosztuje 20 dolarów. Obecnie jedynym większym chatbotem AI oferującym darmowy wbudowany generator obrazów jest Bing Chat AI firmy Microsoft. Nawiasem mówiąc, działa w oparciu o potężny model języka GPT-4 z OpenAI.
„Podobnie jak w przypadku DALL-E 2, obrazy wygenerowane przy użyciu DALL-E 3 będą własnością użytkownika i nie będą wymagały pozwolenia na ich ponowne drukowanie, sprzedaż lub dystrybucję” – wyjaśnia OpenAI.
Firma zauważyła również, że DALL-E 3 zawiera narzędzia ograniczające tworzenie niektórych obrazów. Na przykład generator obrazów odrzuci prośby zawierające nazwiska osób publicznych lub „szkodliwe uprzedzenia”, aby zmniejszyć ryzyko szerzenia propagandy i dezinformacji. Twórcy testują także klasyfikator pochodzenia, czyli narzędzie, które określi, czy obraz został wygenerowany przez sieć neuronową. Wreszcie DALL-E nie będzie generował obrazów w stylu życia i tworzenia artystów.