Google wprowadził Lumiere, „model dyfuzji przestrzenno-czasowej do generowania realistycznego wideo” oparty na sztucznej inteligencji. Jak pokazała praktyka, jest to chyba najpotężniejszy jak dotąd generator wideo AI, tworzący dynamiczne obrazy na podstawie opisów tekstowych.
Najważniejszą różnicą pomiędzy Google Lumiere a istniejącymi analogami jest unikalna architektura modelu – wideo przez cały czas jego trwania generowane jest w jednym przebiegu. Inne modele działają na innej zasadzie: generują kilka klatek kluczowych, a następnie interpolują w czasie, co utrudnia spójność wygenerowanego filmu. Lumiere działa w kilku trybach, m.in. konwertuje tekst na wideo, konwertuje obrazy statyczne na dynamiczne, tworzy filmy w danym stylu na podstawie próbki, umożliwia edycję istniejącego wideo za pomocą podpowiedzi pisemnych, animuje określone obszary statycznego obraz lub edytuje fragmentarycznie wideo – na przykład może zmienić element garderoby danej osoby.
„Nasz model T2V [przetwarzania tekstu na wideo] szkolimy na zestawie danych obejmującym 30 milionów filmów z opisami tekstowymi. Filmy mają długość 80 klatek i 16 klatek na sekundę. Podstawowy model jest trenowany w rozdzielczości 128 × 128 pikseli” – wyjaśnił Google. Wynikiem są 5-sekundowe filmy o rozdzielczości 1024 × 1024 pikseli.
Google Lumiere nie jest oczywiście pierwszym generatorem wideo AI. Sam Google zademonstrował już wcześniej model Imagen Video, który generował filmy w rozdzielczości 1280 × 768 pikseli przy 24 klatkach na sekundę, ale jego kreacje były znacznie skromniejsze. Mniej realistyczne były wyniki takich projektów jak Meta✴ Make-A-Video, Runway Gen2 i Stable Video Diffusion. Google rozumie zagrożenie, jakie niosą ze sobą takie projekty: „Naszym głównym celem w tej pracy jest umożliwienie początkującym użytkownikom możliwości generowania treści wizualnych w sposób elastyczny i kreatywny. Istnieje jednak ryzyko nieodpowiednich podróbek lub szkodliwych treści przy użyciu naszej technologii i uważamy, że opracowanie i wdrożenie narzędzi do wykrywania stronniczości i złośliwego użycia ma kluczowe znaczenie, aby zapewnić bezpieczne i uczciwe działanie [modelu]”.