Zespół robotyki Google DeepMind zaprezentował trzy nowe produkty, które pomogą robotom szybciej podejmować decyzje oraz wykonywać zadania wydajniej i bezpieczniej w otoczeniu ludzi.
System gromadzenia danych AutoRT wykorzystuje model języka wizualnego (VLM) i model języka dużego (LLM), aby pomóc robotom ocenić swoje otoczenie, dostosować się do nieznanych środowisk i podejmować decyzje dotyczące zadań. VLM służy do analizy otoczenia i rozpoznawania obiektów w zasięgu wzroku; a LLM odpowiada za kreatywną realizację zadań. Najważniejszą innowacją AutoRT było pojawienie się w bloku LLM „Konstytucji Robota” – poleceń zorientowanych na bezpieczeństwo, które instruują maszynę, aby unikała wybierania zadań obejmujących ludzi, zwierzęta, ostre przedmioty, a nawet urządzenia elektryczne. Dla większego bezpieczeństwa roboty zaprogramowano tak, aby zatrzymywały się, gdy siła połączenia przekroczy określony próg; a ich konstrukcja obejmuje teraz dodatkowy fizyczny przełącznik, z którego można skorzystać w sytuacji awaryjnej.
W ciągu ostatnich siedmiu miesięcy Google wdrożył 53 roboty AutoRT w czterech swoich budynkach biurowych i przeprowadził ponad 77 000 testów. Część maszyn sterowana była zdalnie przez operatorów, inne wykonywały zadania autonomicznie, albo w oparciu o zadany algorytm, albo z wykorzystaniem modelu sztucznej inteligencji Robotic Transformer (RT-2). Na razie wszystkie te roboty wyglądają niezwykle prosto: są to kończyny manipulatora na ruchomej podstawie i kamery umożliwiające ocenę sytuacji.
Drugą innowacją był system SARA-RT (Self-Adaptive Robust Attention for Robotics Transformers), mający na celu optymalizację pracy modelu RT-2. Naukowcy odkryli, że gdy podwojono ilość danych wejściowych, na przykład poprzez zwiększenie rozdzielczości kamer, zapotrzebowanie robota na zasoby obliczeniowe wzrosło czterokrotnie. Problem ten został rozwiązany dzięki nowej metodzie dostrajania AI, zwanej up-training – metoda ta sprawia, że kwadratowy wzrost zapotrzebowania na zasoby obliczeniowe staje się niemal liniowy. Dzięki temu model działa szybciej przy zachowaniu tej samej jakości.
Wreszcie inżynierowie Google DeepMind opracowali model sztucznej inteligencji o nazwie RT-Trajectory, który ułatwia szkolenie robotów do wykonywania określonych zadań. Po ustaleniu zadania operator sam demonstruje przykład jego realizacji; RT-Trajectory analizuje wyznaczoną przez człowieka trajektorię i dostosowuje ją do działań robota.