Waymo i Gemini nauczą robotykę radzić sobie w trudnych sytuacjach na drodze

Redaktor NetMaster
Redaktor NetMaster
3 min. czytania

Waymo, spółka zależna Alphabet, wprowadziła nowe podejście do szkolenia swoich pojazdów autonomicznych przy użyciu modelu Gemini, dużego wielomodalnego modelu językowego (MLLM) firmy Google. Model usprawni nawigację samochodami autonomicznymi i pozwoli im lepiej radzić sobie w skomplikowanych sytuacjach drogowych.

W nowym artykule badawczym Waymo zdefiniowało swój rozwój jako „kompleksowy multimodalny model jazdy autonomicznej” (EMMA), który przetwarza dane z czujników i pomaga robotaxis podejmować decyzje dotyczące kierunku jazdy, unikając przeszkód. Jak podaje The Verge, Waymo od dawna podkreśla swoją strategiczną przewagę dzięki dostępowi do badań naukowych z zakresu sztucznej inteligencji (AI) Google DeepMind, należącej wcześniej do brytyjskiej firmy DeepMind Technologies.

Nowy system EMMA reprezentuje zasadniczo odmienne podejście do szkolenia pojazdów autonomicznych. Zamiast tradycyjnych systemów modułowych, które rozdzielają funkcje na postrzeganie, planowanie trasy i inne zadania, EMMA oferuje ujednolicone podejście, które pozwoli na całościowe przetwarzanie danych, pomoże uniknąć błędów pojawiających się przy przesyłaniu danych pomiędzy modułami oraz usprawni adaptację do nowej, nieznanej drogi warunków w czasie rzeczywistym.

Jedną z kluczowych korzyści stosowania modeli MLLM, w szczególności Gemini, jest możliwość uogólniania wiedzy wynikającej z ogromnej ilości danych pozyskanych z Internetu. Dzięki temu modele lepiej dostosowują się do nietypowych sytuacji na drodze, takich jak niespodziewane pojawienie się zwierząt czy prace naprawcze. Ponadto modele wytrenowane na Bliźniętach są zdolne do „wnioskowania łańcuchowego”. Jest to technika, która pomaga podzielić złożone problemy na sekwencyjne, logiczne etapy, usprawniając proces podejmowania decyzji.

Pomimo swoich sukcesów Waymo przyznaje, że EMMA ma swoje ograniczenia. Przykładowo model nie obsługuje jeszcze przetwarzania danych 3D z czujników takich jak lidar czy radar ze względu na dużą złożoność obliczeniową. Ponadto EMMA może przetwarzać jednocześnie tylko ograniczoną liczbę klatek obrazu. Podkreśla się, że przed pełną implementacją modelu w warunkach rzeczywistych konieczne będą dalsze badania, aby pokonać wszystkie te ograniczenia.

Waymo dostrzega również ryzyko związane z wykorzystaniem MLLM do kierowania pojazdami autonomicznymi. Modele takie jak Gemini potrafią popełniać błędy lub „halucynować” przy prostych zadaniach, co oczywiście jest niedopuszczalne na drodze. Mamy jednak nadzieję, że dalsze badania i udoskonalenia architektury modeli sztucznej inteligencji do jazdy autonomicznej pozwolą przezwyciężyć te problemy.

Udostępnij ten artykuł
Dodaj komentarz