Το νέο μοντέλο Gemini Robotics AI της Google φτιάχνει origami και κλείνει σακούλες με φερμουάρ

0
4

H DeepMind της Google ανακοίνωσε δύο νέα μοντέλα τεχνητής νοημοσύνης που έχουν σχεδιαστεί για τον έλεγχο των ρομπότ: τα Gemini Robotics και Gemini Robotics-ER.

Η εταιρεία ισχυρίζεται ότι αυτά τα μοντέλα θα βοηθήσουν τα ρομπότ πολλών σχημάτων και μεγεθών να κατανοήσουν και να αλληλεπιδράσουν με τον φυσικό κόσμο πιο αποτελεσματικά και απαλά από τα προηγούμενα συστήματα, ανοίγοντας το δρόμο για εφαρμογές όπως τα ανθρωποειδή ρομπότ-βοηθοί.

Αξίζει να σημειωθεί ότι παρόλο που το υλικό για πλατφόρμες ρομπότ φαίνεται να προχωρά με σταθερό ρυθμό, η δημιουργία ενός ικανού μοντέλου τεχνητής νοημοσύνης που μπορεί να οδηγεί αυτά τα ρομπότ αυτόνομα μέσα από νέα σενάρια με ασφάλεια και ακρίβεια έχει αποδειχτεί άπιαστη.

Τώρα, τα νέα μοντέλα της Google βασίζονται στη βάση μοντέλων μεγάλων γλωσσών Gemini 2.0, προσθέτοντας δυνατότητες ειδικά για ρομποτικές εφαρμογές. Η Gemini Robotics περιλαμβάνει αυτό που η Google αποκαλεί ικανότητες “όραμα-γλώσσα-δράση” (VLA), επιτρέποντάς της να επεξεργάζεται οπτικές πληροφορίες, να κατανοεί γλωσσικές εντολές και να δημιουργεί σωματικές κινήσεις. Αντίθετα, η Gemini Robotics-ER εστιάζει στην «ενσωματωμένη λογική» με βελτιωμένη χωρική κατανόηση.

Για παράδειγμα, με το Gemini Robotics, μπορείτε να ζητήσετε από ένα ρομπότ να «σηκώσει τη μπανάνα και να τη βάλει στο καλάθι» και θα χρησιμοποιήσει μια προβολή κάμερας της σκηνής για να αναγνωρίσει τη μπανάνα, καθοδηγώντας έναν ρομποτικό βραχίονα για να εκτελέσει τη δράση με επιτυχία. Ή μπορείτε να πείτε, “διπλώστε μια αλεπού origami” και θα χρησιμοποιήσει τις γνώσεις της για το origami και πώς να διπλώνει προσεκτικά το χαρτί για να εκτελέσει την εργασία.

Καλύτερα γενικευμένα αποτελέσματα
Σύμφωνα με τη DeepMind, το νέο σύστημα Gemini Robotics επιδεικνύει πολύ ισχυρότερη γενίκευση ή την ικανότητα να εκτελεί νέες εργασίες για τις οποίες δεν είχε εκπαιδευτεί ειδικά, σε σύγκριση με τα προηγούμενα μοντέλα AI. Στην ανακοίνωσή της, η εταιρεία ισχυρίζεται ότι η Gemini Robotics «υπερδιπλασιάζει την απόδοση σε ένα ολοκληρωμένο σημείο αναφοράς γενίκευσης σε σύγκριση με άλλα μοντέλα όρασης-γλώσσας-δράσης τελευταίας τεχνολογίας». Η γενίκευση έχει σημασία γιατί τα ρομπότ που μπορούν να προσαρμοστούν σε νέα σενάρια χωρίς ειδική εκπαίδευση για κάθε κατάσταση θα μπορούσαν μια μέρα να λειτουργήσουν σε απρόβλεπτα περιβάλλοντα του πραγματικού κόσμου.

Αυτό είναι σημαντικό γιατί ο σκεπτικισμός παραμένει σχετικά με το πόσο χρήσιμα μπορεί να είναι επί του παρόντος τα ανθρωποειδή ρομπότ ή πόσο ικανά είναι πραγματικά. Η Tesla αποκάλυψε το ρομπότ Optimus Gen 3 τον περασμένο Οκτώβριο, ισχυριζόμενος ότι έχει την ικανότητα να ολοκληρώνει πολλές φυσικές εργασίες, ωστόσο εξακολουθούν να υπάρχουν ανησυχίες σχετικά με την αυθεντικότητα των δυνατοτήτων της αυτόνομης τεχνητής νοημοσύνης, αφού η εταιρεία παραδέχτηκε ότι πολλά ρομπότ στο εκρηκτικό demo της ελέγχονταν εξ αποστάσεως από ανθρώπους.

Εδώ, η Google προσπαθεί να κάνει έναν γενικό εγκέφαλο ρομπότ. Με αυτόν τον στόχο κατά νου, η εταιρεία ανακοίνωσε μια συνεργασία με την Apptronik που εδρεύει στο Ώστιν του Τέξας για να «χτίσει την επόμενη γενιά ανθρωποειδών ρομπότ με το Gemini 2.0». Ενώ εκπαιδεύεται κυρίως σε μια διχειροκίνητη πλατφόρμα ρομπότ που ονομάζεται ALOHA 2, η Google δηλώνει ότι η Gemini Robotics μπορεί να ελέγχει διαφορετικούς τύπους ρομπότ, από ρομποτικούς βραχίονες Franka προσανατολισμένους στην έρευνα έως πιο περίπλοκα ανθρωποειδή συστήματα όπως το ρομπότ Apollo της Apptronik.

Ρομποτική Gemini: Επιδέξιες δεξιότητες.
Ενώ η προσέγγιση του ανθρωποειδούς ρομπότ είναι μια σχετικά νέα εφαρμογή για τα παραγωγικά μοντέλα τεχνητής νοημοσύνης της Google, αξίζει να σημειωθεί ότι η Google είχε προηγουμένως εξαγοράσει αρκετές εταιρείες ρομποτικής γύρω στο 2013-2014 (συμπεριλαμβανομένης της Boston Dynamics, που κατασκευάζει ανθρωποειδή ρομπότ), αλλά αργότερα τις πούλησε . Η νέα συνεργασία με την Apptronik φαίνεται να είναι μια νέα προσέγγιση στην ανθρωποειδή ρομποτική παρά μια άμεση συνέχιση αυτών των προηγούμενων προσπαθειών.

Ασφάλεια και περιορισμοί
Για λόγους ασφαλείας, η Google αναφέρει μια “επίπεδη, ολιστική προσέγγιση” που διατηρεί τα παραδοσιακά μέτρα ασφάλειας ρομπότ, όπως η αποφυγή σύγκρουσης και οι περιορισμοί δύναμης. Η εταιρεία περιγράφει την ανάπτυξη ενός πλαισίου « Robot Constitution » εμπνευσμένο από τους Τρεις νόμους της ρομποτικής του Isaac Asimov και την κυκλοφορία ενός συνόλου δεδομένων που δεν αποτελεί έκπληξη το όνομα « ASIMOV » για να βοηθήσει τους ερευνητές να αξιολογήσουν τις επιπτώσεις των ρομποτικών ενεργειών στην ασφάλεια.

Αυτό το νέο σύνολο δεδομένων ASIMOV αντιπροσωπεύει την προσπάθεια της Google να δημιουργήσει τυποποιημένους τρόπους αξιολόγησης της ασφάλειας των ρομπότ πέρα ​​από την πρόληψη σωματικών βλαβών. Το σύνολο δεδομένων φαίνεται να έχει σχεδιαστεί για να βοηθήσει τους ερευνητές να ελέγξουν πόσο καλά τα μοντέλα AI κατανοούν τις πιθανές συνέπειες των ενεργειών που μπορεί να κάνει ένα ρομπότ σε διάφορα σενάρια. Σύμφωνα με την ανακοίνωση της Google, το σύνολο δεδομένων θα «βοηθήσει τους ερευνητές να μετρήσουν αυστηρά τις επιπτώσεις της ασφάλειας των ρομποτικών ενεργειών σε σενάρια πραγματικού κόσμου».

Η εταιρεία δεν ανακοίνωσε χρονοδιαγράμματα διαθεσιμότητας ή συγκεκριμένες εμπορικές εφαρμογές για τα νέα μοντέλα τεχνητής νοημοσύνης, τα οποία παραμένουν σε φάση έρευνας. Ενώ τα βίντεο επίδειξης που κοινοποίησε η Google απεικονίζουν προόδους στις δυνατότητες που βασίζονται σε AI, τα ελεγχόμενα ερευνητικά περιβάλλοντα εξακολουθούν να αφήνουν ανοιχτά ερωτήματα σχετικά με την απόδοση αυτών των συστημάτων σε απρόβλεπτες πραγματικές ρυθμίσεις.

Πηγή