TECHin

Γιατί η Toyota έφτιαξε ένα "νηπιαγωγείο για ρομπότ" (+video)


Χρησιμοποιώντας μια μέθοδο βασισμένη στην γενεσιουργό τεχνητή νοημοσύνη, η Toyota διδάσκει σε ρομπότ να ξεφλουδίζουν λαχανικά, να προετοιμάζουν σνακ και να εκτελούν επιδέξια άλλες εργασίες που θα μπορούσαν να τα κάνουν χρήσιμα στον πραγματικό κόσμο.

"Αυτή η μέθοδος μας επιτρέπει να διδάξουμε δεξιότητες στα ρομπότ πιο γρήγορα και με σημαντικά λιγότερες επιδείξεις από ποτέ", δήλωσε ο Ρας Τέντρεϊκ, Αντιπρόεδρος της ρομποτικής έρευνας στο Ινστιτούτο Έρευνας της Toyota (Toyota Research Institute, TRI).

Ένα "ιερό δισκοπότηρο" για τη ρομποτική είναι η δημιουργία ρομπότ γενικής χρήσης που μπορούν να εισέλθουν στους χώρους εργασίας ή στα σπίτια μας και να μάθουν γρήγορα να εκτελούν νέες εργασίες. Για να επιτευχθεί αυτό, θα χρειαστεί μια γρήγορη, αποτελεσματική μέθοδος για την εκπαίδευση της τεχνητής νοημοσύνης που τα τροφοδοτεί.

Ενώ πολλές τεχνικές είναι ελπιδοφόρες - όπως το να τους δείχνουν ειδικά βίντεο και να τους δίνουν "δωράκια" σαν να εκπαιδεύουν έναν σκύλο - η προσπάθεια εύρεσης της ταχύτερης και αποτελεσματικότερης μεθόδου εκπαίδευσης ρομπότ ακόμα συνεχίζεται.

Η TRI ανακοίνωσε ότι έχει βρει αυτή την καινοτόμο μέθοδο για να διδάσκονται τα ρομπότ νέες δεξιότητες, από αυτές που απαιτούν ακρίβεια στην κίνηση, όπως η έκχυση υγρών ή ο χειρισμός μαλακών αντικειμένων.

Το Ινστιτούτο έχει ήδη χρησιμοποιήσει αυτή τη μέθοδο για να διδάξει γρήγορα στα ρομπότ περισσότερες από 60 δεξιότητες, συμπεριλαμβανομένων της χρήσης μίξερ χειρός, του να γυρίζουν τηγανίτες και να τοποθετούν πιάτα σε σχάρα στεγνώματος.

Στόχος του είναι να φτάσει τις 200 δεξιότητες μέχρι το τέλος του 2023 και τις 1.000 μέχρι το τέλος του 2024.

"Οι εργασίες που παρακολουθώ να εκτελούν αυτά τα ρομπότ είναι απλά εκπληκτικές - ακόμη και πριν από ένα χρόνο, δεν θα είχα προβλέψει ότι ήμασταν κοντά σε αυτό το επίπεδο διαφορετικών επιδεξιότητας", λέει ο Τέντρεϊκ

Πως μαθαίνουν τα ρομπότ

Η νέα μέθοδος εκπαίδευσης επικεντρώνεται στις "απτικές επιδείξεις". Αυτές δημιουργούνται έχοντας έναν ερευνητή να ελέγχει χειροκίνητα ένα ρομπότ, χρησιμοποιώντας μια ειδικά αναπτυγμένη διεπαφή τηλελειτουργίας. Αυτή η διεπαφή παρέχει απτική ανάδραση στον χειριστή, που σημαίνει ότι το αισθάνεται όταν το ρομπότ έρχεται σε επαφή με κάτι.

Ο χειριστής συνήθως χειρίζεται το ρομπότ σε μια νέα εργασία επανειλημμένα για μία ή δύο ώρες, από μερικές δεκάδες έως εκατοντάδες φορές, ενώ οι κάμερες και οι απτικοί αισθητήρες του ρομπότ καταγράφουν τη διαδικασία.

Τα δεδομένα της επίδειξης τροφοδοτούνται στη συνέχεια στο μοντέλο τεχνητής νοημοσύνης της TRI, το οποίο μαθαίνει μέσω της "πολιτικής διάχυσης", μια προσέγγιση που αναπτύχθηκε από την TRI και ερευνητές στο Πανεπιστήμιο Κολούμπια.

Η τεχνική βασίζεται στη μέθοδο διάχυσης που τροφοδοτεί ορισμένα άλλα μοντέλα τεχνητής τεχνητής νοημοσύνης από κείμενο σε εικόνα, όπως το Stable Diffusion και το DALL-E 2, αλλά αντί να δημιουργεί εικόνες από κείμενο, αυτή η έκδοση επιτρέπει στην τεχνητή νοημοσύνη να παράγει φυσικές ενέργειες για ένα ρομπότ που βασίζεται σε αισθητηριακά δεδομένα.

Η πολιτική διάχυσης είναι περίπλοκη (μπορείτε να διαβάσετε την εργασία των ερευνητών στο arXiv για όλες τις λεπτομέρειες), αλλά η ουσία, σύμφωνα με την TRI, είναι ότι είναι πολύ πιο γρήγορη από άλλες μεθόδους εκπαίδευσης.

«Η συνήθης διαδικασία μας είναι να διδάσκουμε το ρομπότ το απόγευμα, να το αφήνουμε να μάθει τη νύχτα και το επόμενο πρωί είναι σε θέση να εκτελέσει τη νέα συμπεριφορά», λέει ο Μπεν Μπέρχφιλ, διευθυντής επιδέξιων χειρισμών της TRI.

Αυτή η προσέγγιση ανοίγει επίσης την πόρτα για τη δημιουργία τεχνητής νοημοσύνης που είναι σε θέση να μάθει γρήγορα πώς να κάνει πολλές εργασίες, με τον ίδιο τρόπο που άλλες παραγωγικές τεχνητές νοημοσύνες είναι ικανές να δημιουργούν μια ποικιλία εικόνων ή να γράφουν σε διάφορα θέματα.

"Αυτή η μέθοδος έχει μεγάλες δυνατότητες για τη δημιουργία αυτού που ονομάζουμε «μοντέλα συμπεριφοράς μεγάλης κλίμακας»", δήλωσε ο Τέντρεϊκ. «Όπως τα μοντέλα γλώσσας μεγάλης κλίμακας έφεραν επανάσταση στα chatbot, αυτά τα μοντέλα συμπεριφοράς επιτρέπουν στα ρομπότ να εκτελούν χρήσιμες εργασίες με τρόπους που δεν μπορούσαν πριν».

Η πρόκληση

Ένας περιορισμός της προσέγγισης της TRI είναι ότι τα ρομπότ της μπορεί να δυσκολευτούν να ολοκληρώσουν εργασίες υπό συνθήκες που διαφέρουν σημαντικά από αυτές στα δεδομένα επίδειξης. Για παράδειγμα, ένα ρομπότ που δεν είχε κανένα πρόβλημα να αδειάσει ένα φλιτζάνι πάγο σε έναν τακτοποιημένο νεροχύτη - όπως αυτό στα δεδομένα επίδειξης του - μπορεί να δυσκολευτεί να το αδειάσει σε έναν ακατάστατο νεροχύτη.

Οι ερευνητές πιστεύουν ότι τα ρομπότ τους θα γίνουν πιο ευέλικτα καθώς θα εισάγονται σε πολλά διαφορετικά δεδομένα εκπαίδευσης, οπότε αυτή τη στιγμή, χτίζουν αυτό που ο Τέντρεϊκ αποκαλεί «νηπιαγωγείο για ρομπότ» — το εκπαιδευτικό του πρόγραμμα περιλαμβάνει τόσο απτικές επιδείξεις, όσο και προσομοιώσεις υπολογιστή και στόχος είναι να διδάξει στα ρομπότ βασικές δεξιότητες που θα είναι χρήσιμες σε πολλές καταστάσεις στον πραγματικό κόσμο.

«Η επόμενη σημαντική ανακάλυψη θα είναι όταν θα έχουμε εκπαιδεύσει τα ρομπότ με τόσες πολλές δεξιότητες, που θα είναι σε θέση να γενικεύουν, φτάνοντας στο σημείο να εκτελούν μια νέα δεξιότητα, που δεν έχουν διδαχθεί ποτέ», λέει ο Τέντρεϊκ.

Διαβαστε επισης