TECHin

Τεχνολογίες ομιλίας: Σε 10 (το πολύ 20) χρόνια θα συζητάμε κανονικά με τις μηχανές


Παρά τις τεχνικές δυσκολίες που υπάρχουν ακόμη, σε 10 έως το πολύ 20 χρόνια θα συζητάμε κανονικά με τις μηχανές, με τρόπο πολύ φυσικό και ανθρώπινο. Και στην Ελλάδα η ανάπτυξη της σχετικής τεχνολογίας βρίσκεται σε πολύ καλό επίπεδο σε σχέση με τις διεθνείς εξελίξεις, όπως λένε τρεις Έλληνες ερευνητές της Silicon Valley.

Οι σημερινοί προσωπικοί ψηφιακοί/εικονικοί βοηθοί όπως η Siri της Apple, η Alexa της Amazon, η Cortana της Microsoft και η Google Assistant, που επιτρέπουν την περιορισμένη και μέσα σε «καλούπια» επικοινωνία του χρήστη με τις ευφυείς συσκευές (κινητό, tablet, έξυπνα ηχεία, ηλεκτρικές συσκευές, αυτοκίνητο κ.α.), είναι απλώς η πρόγευση ενός μέλλοντος, όταν θα είναι πια εφικτή η πραγματοποίηση μιας πολύ πιο φυσικής συζήτησης μεταξύ ανθρώπου και μηχανής. Σε αυτό βοηθούν οι μέθοδοι βαθιάς μάθησης (deep learning) της τεχνητής νοημοσύνης, που εφαρμόζονται πλέον όλο και περισσότερο στις τεχνολογίες ομιλίας.

Για το διάλογο μεταξύ του ανθρώπου και του υπολογιστή ή όποιας άλλης «έξυπνης» μηχανής, μίλησαν στο ΑΠΕ-ΜΠΕ τρεις Έλληνες ερευνητές που ζουν και εργάζονται στις ΗΠΑ πάνω σε μια από τις αιχμές της νέας τεχνολογίας:

  • Η Δήμητρα Βεργύρη, διευθύντρια του Εργαστηρίου Έρευνας και Τεχνολογίας Ομιλίας (STAR) του Ινστιτούτου SRI International στο Μένλο Παρκ της Καλιφόρνιας
  • Ο Δημήτρης Δημητριάδης, ανώτερος ερευνητής υπεύθυνος 'ανάλυσης συναισθημάτων' στην ομάδα ομιλίας και γλώσσας της Microsoft στο Σιάτλ
  • Ο Αλέξανδρος Παπαγγελής, κύριος ερευνητής στο τμήμα διαλογικής τεχνητής νοημοσύνης της Uber στο Σαν Φρανσίσκο.

Οι συνεντεύξεις πραγματοποιήθηκαν στο πλαίσιο του Διεθνούς Συνεδρίου Τεχνολογιών Ομιλίας SLT (Spoken Language Technology), που συνδιοργανώθηκε στην Αθήνα από 18 έως 21 Δεκεμβρίου από το διεθνές Ινστιτούτο Ηλεκτρολόγων και Ηλεκτρονικών Μηχανικών (IEEE), τον μεγαλύτερο στον κόσμο οργανισμό επαγγελματιών τεχνολογίας, και το Ινστιτούτο Πληροφορικής του «Δημόκριτου».

Τα βασικά σημεία των συνεντεύξεων 

Δήμητρα Βεργύρη - διευθύντρια ερευνών Ινστιτούτου SRI στην Καλιφόρνια

Για την έρευνα στο SRI: «Εργάζομαι από το 2000 στο SRI, ένα αυτόνομο ερευνητικό οργανισμό με περίπου 1.200 άτομα, ο οποίος αρχικά δημιουργήθηκε από το Πανεπιστήμιο Στάνφορντ και μετά αποσχίστηκε. Αναλαμβάνει ερευνητικά προγράμματα τόσο για κυβερνητικούς οργανισμούς, όπως τα υπουργεία Παιδείας, 'Αμυνας και Ενέργειας των ΗΠΑ, όσο και για ιδιωτικές εταιρείες, στις οποίες παραχωρεί μετά την άδεια χρήσης της νέας τεχνολογίας. Μεταξύ άλλων, το SRI ανέπτυξε το «ποντίκι» των υπολογιστών, συμμετείχε στο πρώτο πείραμα για την ανάπτυξη του Ίντερνετ και, πιο πρόσφατα, έφτιαξε την εφαρμογή Siri που μετά πούλησε στην Apple.

Μεταξύ άλλων, στο SRI η ομάδα μου ανέλαβε από την αμερικανική κυβέρνηση ένα πολυετές πρόγραμμα για την ανάλυση σήματος σε πολύ θορυβώδεις συνθήκες. Κάναμε πολύ μεγάλη πρόοδο, ώστε να μπορεί να χρησιμοποιηθεί πια αυτή η τεχνολογία σε συνθήκες που δεν θα περίμενε ποτέ κανείς στο παρελθόν. Δουλεύουμε επίσης πάνω σε ένα σύστημα διαλόγου που θα κρατάει συντροφιά σε ηλικιωμένους, ένα σύστημα μετάφρασης από φωνή σε φωνή μεταξύ Αγγλικών και Γαλλικών που μιλιούνται στην Κεντρική Αφρική για χρήση από το προσωπικό των οργανισμών ανθρωπιστικής βοήθειας, πάνω σε συστήματα αναγνώρισης διαλέκτων και σε άλλα προγράμματα, που όμως δεν είναι ανακοινώσιμα».

Για την Ελλάδα και τους Έλληνες: «Η κατάσταση της τεχνολογίας ομιλίας στην Ελλάδα είναι πολύ καλή. Υπάρχουν και εταιρείες και πανεπιστήμια που ασχολούνται. Η Ελλάδα έχει πολύ καλό προσωπικό, πολλοί είναι επιστήμονες που γύρισαν πίσω από το εξωτερικό, έχοντας πια μεγάλη εμπειρία. Αναπτύσσουν προγράμματα για ηλικιωμένους όπως κι εμείς στο SRI ή για παιδιά και γενικά γίνεται πολύ καλή δουλειά.
Είμαι παντρεμένη με Έλληνα και πάντα συζητάμε να γυρίσουμε πίσω, απλά δεν είναι η κατάλληλη φάση. Στο SRI έχουμε και άλλους Έλληνες, τους οποίους πήραμε μετά το διδακτορικό τους. Γενικά, όταν Έλληνες κάνουν αίτηση να δουλέψουν στο SRI, έχουν καλές πιθανότητες».

Για το παρόν και το μέλλον των διαλογικών συστημάτων: «Τα συστήματα επικοινωνίας ανθρώπου-μηχανής λειτουργούν ήδη αρκετά καλά σήμερα, γι' αυτό εφαρμόζονται όλο και περισσότερο. Όμως δεν λειτουργούν πάντα, αυτό είναι το πρόβλημα. Λειτουργούν μόνο υπό πολύ συγκεκριμένες συνθήκες: πρέπει να ξέρεις πώς θα τους μιλήσεις, με συγκεκριμένες προτάσεις που τελειώνουν εκεί που πρέπει, να μην υπάρχει θόρυβος στο περιβάλλον κ.α. Όλοι σήμερα δουλεύουν για να γίνουν αυτά τα συστήματα πιο φυσικά στον διάλογο και να μπορούν να χρησιμοποιηθούν παντού και πάντα.

Σε συγκεκριμένες εργασίες, υπάρχει μεγάλη πρόοδος. Για παράδειγμα, ένα νέο σύστημα της Google κάνει κρατήσεις σε εστιατόρια, χωρίς να μπορείς να καταλάβεις ότι δεν είναι άνθρωπος. Όμως είμαστε ακόμη μακριά από κάτι πιο γενικό στις ικανότητές του, που θα συμπεριφέρεται με αρκετά φυσικό και ανθρώπινο τρόπο, επειδή είναι δύσκολο για ένα τέτοιο σύστημα να έχει πραγματική κατανόηση του κόσμου. Στα επόμενα δέκα έως είκοσι χρόνια, θα είμαστε πολύ κοντά σε ένα τέτοιο σύστημα.

Υπάρχουν δύο τάσεις εφαρμογής τους στο μέλλον. Είτε ξεχωριστές επιμέρους διαλογικές πλατφόρμες, είτε ένας καθολικός προσωπικός ψηφιακός βοηθός που θα σε "ακολουθεί" παντού, στην εργασία, στο σπίτι ή στο αυτοκίνητο. Το τι θα επικρατήσει τελικά, είναι ακόμη άγνωστο». 

Τεχνολογίες ομιλίας και τα παιδιά: «Εγώ χρησιμοποιώ τέτοια συστήματα στη δουλειά, αλλά όχι στο σπίτι μου. Έχω μικρά παιδιά και παρατήρησα ότι έχουν την τάση να πηγαίνουν και να μιλάνε σε αυτά τα συστήματα, τα βλέπουν σαν παιγνίδι. Μερικές φορές παίρνουν χρήσιμες πληροφορίες, για παράδειγμα ο γιος μου έμαθε έτσι τι είναι ο μοσάσαυρος, αλλά δεν ξέρεις τι άλλο μπορεί να ρωτήσει! Προς το παρόν, θέλω να έχω τον έλεγχο…»

Η Δ.Βεργύρη είναι απόφοιτος της Σχολής Ηλεκτρολόγων Μηχανικών του ΕΜΠ (1993), πήρε το διδακτορικό της από το Πανεπιστήμιο Τζον Χόπκινς (2000) κι έκτοτε εργάζεται στο SRI.

Δημήτρης Δημητριάδης - ανώτερος ερευνητής της Microsoft στο Σιάτλ

Για την έρευνα στην Microsoft: «Είμαι υπεύθυνος 'ανάλυσης συναισθημάτων' στην ερευνητική ομάδα ομιλίας και γλώσσας της Microsoft. Στόχος μας είναι το μηχάνημα να μπορεί να καταλάβει την ψυχολογική κατάσταση του ομιλητή, αναλύοντας τη φωνή, το τι λες και πώς το λες. Ασχολούμαι και με ένα πρόγραμμα που κρατά 'πρακτικά' των συναντήσεων ομάδων ανθρώπων, αναλύοντας ήχο και εικόνα, ώστε να γίνεται μια αυτόματη περίληψη στο τέλος κάθε συνάντησης του τι έχει ειπωθεί και τι πρέπει να γίνει στο μέλλον.

Η ανάλυση συναισθημάτων θα γίνει από την Microsoft διαθέσιμο προϊόν στους επόμενους δύο-τρεις μήνες. Για παράδειγμα, ένα τηλεφωνικό κέντρο θα μπορεί, αναλύοντας το αρχείο ήχου, να καταλάβει σε ποιά κατάσταση είναι ο ομιλητής, καθώς επίσης πώς ξεκίνησε συναισθηματικά το τηλεφώνημα και πώς τελείωσε. Είναι σημαντικό αν κάποιος που τηλεφώνησε νευριασμένος, τελικά να έβγαλε άκρη με το πρόβλημά του. Μελετάμε τη χρονική εξέλιξη της συναισθηματικής κατάστασης και αυτός είναι ένας δείκτης του πόσο ευχαριστημένος μένει ένας πελάτης από τις υπηρεσίες της εταιρείας.

Προς το παρόν η ανάλυση συναισθημάτων είναι μια υπηρεσία στο «νέφος» της Microsoft, αρχικά μόνο για τηλεφωνικά κέντρα, αλλά στη συνέχεια οι εφαρμογές θα επεκταθούν. Αυτό δεν αφορά ακόμη τον προσωπικό ψηφιακό βοηθό της Microsoft, την Cortana, όπου η αρμόδια ομάδα, όπως με ενημέρωσε, έχει στη λίστα της και την ανάλυση συναισθημάτων, αλλά προηγούνται κάποιες άλλες προτεραιότητες για το επόμενο τουλάχιστον εξάμηνο. Από την άλλη, η δημιουργία «ημερολογίου» συναντήσεων είναι πιο δύσκολο τεχνικά πρόβλημα, γι' αυτό θα πάρει περισσότερο χρόνο και δεν έχει ακόμη δρομολογηθεί το αντίστοιχο προϊόν.

Γενικότερα, η Microsoft δεν υστερεί σε σχέση με τους ανταγωνιστές της, όπου όλες οι εταιρείες είναι λίγο-πολύ στο ίδιο επίπεδο. Κάποια υπερτερεί σε κάτι, κάποια σε κάτι άλλο. Το συγκριτικό πλεονέκτημα της Microsoft είναι ότι έχει πρόσβαση σε δισεκατομμύρια χρήστες χάρη στα Windows.

Για την Ελλάδα και τους Έλληνες: «Έφυγα για λόγους καριέρας από την Ελλάδα με τη γυναίκα μου πριν περίπου δέκα χρόνια. Όταν έφυγα το 2008, λίγο πριν την κρίση, μου έλεγαν 'μα που πάτε, γιατί φεύγετε'; Μετά από έξι μήνες, όταν όλα είχαν έλθει ανάποδα στην Ελλάδα, μου έλεγαν πια 'μη γυρίσεις ούτε για διακοπές'!

Η Ελλάδα είναι μια σχέση αγάπης και μίσους. 'Τρώει' τα παιδιά της και είναι σίγουρο ότι υπάρχουν λόγοι που έφυγαν τόσοι στο εξωτερικό. Όλοι όσοι είναι έξω, θέλουν να γυρίσουν και μόλις έρχονται, αρχίζουν να…σιχτιρίζουν. Να γυρίσω απλώς για να γυρίσω, δεν θα το κάνω. Μόνο αν ξέρω ότι θα κάνω τη διαφορά και θα βοηθήσω δέκα άτομα να μείνουν στην Ελλάδα. Δεν έχω γνωρίσει Έλληνα που να μην θέλει να γυρίσει και να βοηθήσει αυτό τον τόπο να πάει μπροστά. Όλοι θέλουμε να δουλέψουμε έξω και μετά να επιστρέψουμε κάτι στη χώρα μας, αυτό είναι κοινή επιθυμία όλων μας που φύγαμε έξω».

Για τις τεχνολογίες ομιλίας στην Ελλάδα: «Η αγορά για την ελληνική γλώσσα είναι περιορισμένη, παρόλα αυτά πολλές ελληνικές εταιρείες έχουν επεκταθεί στα Βαλκάνια και στην Ευρώπη. Αυτές είναι ηρωικές προσπάθειες να κρατήσουν κόσμο στην Ελλάδα. Υπάρχουν φανταστικά μυαλά, ιδίως στο ΕΜΠ, που αναγκαστικά φεύγουν γιατί δεν έχουν να κάνουν κάτι εδώ.
Ένας από τους στόχους μου στη Microsoft είναι φέρουμε στις ΗΠΑ Έλληνες μεταπτυχιακούς φοιτητές για ένα διάστημα, να μάθουν πράγματα και μετά να επιστρέψουν στην Ελλάδα. Δεν θέλω να προσελκύσω ταλέντα έξω, δεν θέλω να είμαι μέρος του προβλήματος του brain drain, θέλω να βοηθήσω εδώ.

Για το μέλλον της τεχνολογίας ομιλίας: «Σήμερα η σύνθεση και η αναγνώριση φωνής έχουν φθάσει σε ικανοποιητικό επίπεδο. Πολύ μακριά από το τέλειο, αλλά πάντως αρκετά καλό για να επικοινωνείς με τη μηχανή. Το επόμενο σημαντικό βήμα θα είναι ο διάλογος, μια κανονική συζήτηση μεταξύ μηχανής και χρήστη, με πιο φυσικό τρόπο, χωρίς καλούπια, όπως συμβαίνει σήμερα. Αυτό που είναι τόσο απλό για τον άνθρωπο, για τις μηχανές είναι ακόμη πολύ δύσκολο».

Ο Δ. Δημητριάδης είναι απόφοιτος της Σχολής Ηλεκτρολόγων Μηχανικών του ΕΜΠ, από όπου πήρε το διδακτορικό του το 2005. Πριν την Microsoft εργάστηκε στην IBM Research και στα Εργαστήρια ΑΤ&Τ στις ΗΠΑ.

Αλέξανδρος Παπαγγελής - ερευνητής της Uber στο Σαν Φρανσίσκο

Για την έρευνα στην Uber: «Βρίσκομαι από φέτος το Σεπτέμβριο στην Uber στο Σαν Φρανσίσκο, στην ομάδα 'διαλογικής τεχνητής νοημοσύνης'. Είμαστε περίπου 20 ερευνητές και μηχανικοί, ασχολούμενοι κυρίως με βασική έρευνα σχετικά με τα διαλογικά συστήματα, που αναγνωρίζουν το κείμενο, τη φωνή και τη σημασία αυτού που λέγεται. Επικεντρώνομαι στο κομμάτι της λήψης αποφάσεων, δηλαδή πώς το σύστημα θα αποφασίσει να απαντήσει σε αυτό που ακούει.

Μία από τις εφαρμογές αυτής της έρευνας είναι να μην χρειάζεται ο οδηγός να βγάζει τα χέρια από το τιμόνι, επικοινωνώντας φωνητικά με την εφαρμογή της Uber. Μια άλλη εφαρμογή αφορά την υποστήριξη των πελατών, ώστε π.χ. να δοθεί μια αυτόματη απάντηση σε κάποιον πελάτη που αναφέρει ένα πρόβλημα τηλεφωνικά ή μέσω της ηλεκτρονικής εφαρμογής της Uber, χωρίς να χρειασθεί κάποιος άνθρωπος να χειριστεί το πρόβλημα, κάτι που θα πάρει περισσότερο χρόνο.

Προσπαθούμε τα διαλογικά συστήματα της Uber να γίνονται ολοένα πιο έξυπνα, να εκτελούν ταυτόχρονα πολλές εργασίες (multi-tasking), να μιλάνε διάφορες γλώσσες κ.α. Όλα αυτά κάποια στιγμή ίσως αξιοποιηθούν σε κάποιο προϊόν. Σύντομα θα χρησιμοποιηθεί μια νέα μας εφαρμογή, χάρη στην οποία ο οδηγός της Uber θα μπορεί φωνητικά να δεχτεί ή να απορρίψει ένα δρομολόγιο. Η εφαρμογή θα τον ενημερώνει για ένα διαθέσιμο δρομολόγιο και αυτός θα απαντά ναι ή όχι.

Για το δίλημμα Ελλάδα ή ΗΠΑ: «Αφότου έφυγα το 2008, λίγο πριν την κρίση, είχα σκεφτεί μερικές φορές να γυρίσω στην Ελλάδα. Αν στο μεταξύ οι συνθήκες ήσαν καλύτερες, μάλλον θα είχα γυρίσει. Τώρα πια βλέπω πως στις ΗΠΑ τα πράγματα κινούνται γρήγορα και είναι το κέντρο των εξελίξεων, προς το παρόν τουλάχιστον, οπότε αυτά που κάνουμε εκεί, έχουν μεγαλύτερο αντίκτυπο. Αν και έχω μείνει μόνο τρεις μήνες στο Σαν Φρανσίσκο, η ζωή εκεί είναι πολύ ωραία. Στην πόλη υπάρχουν πολλοί Έλληνες, ενώ και στην Uber υπάρχουν μερικοί. Οι συνθήκες εργασίας είναι πολύ καλές, όπως και το κλίμα μεταξύ των ερευνητών».

Για τις τεχνολογίες ομιλίας στην Ελλάδα: «Από όσα έχω δει, τα πράγματα είναι σε πολύ καλό επίπεδο. Τόσο σε εταιρείες όσο και σε πανεπιστήμια οι άνθρωποι κάνουν πολύ καλή δουλειά, ιδίως σε σχέση με ευρωπαϊκά προγράμματα. Πιστεύω πως υπάρχουν ευκαιρίες στην Ελλάδα, αν κάποιος γυρίσει. Όχι αμέτρητες, αλλά κάποιες υπάρχουν. Ελπίζω πως ο τομέας τεχνολογιών ομιλίας θα δημιουργήσει νέες θέσεις εργασίας στο μέλλον και στην Ελλάδα, καθώς δεν απαιτεί κάποια ιδιαίτερη υποδομή, αφού κυρίως αφορά υπηρεσίες».

Για τις μελλοντικές τεχνολογικές προκλήσεις: «Ένα βασικό πράγμα είναι να μπουν κανόνες, γιατί δεν μπορεί το διαλογικό σύστημα να λέει ό,τι θέλει. Επίσης θα έχουμε ολοένα περισσότερες προσδοκίες από τον προσωπικό ψηφιακό βοηθό μας να γνωρίζει περισσότερα πράγματα για μας. Κατά συνέπεια θα πρέπει να υπάρχει μια σχέση εμπιστοσύνης ανάμεσά μας, ώστε ο ψηφιακός βοηθός να μην ακολουθεί απλώς κανόνες, αλλά να μαθαίνει για μας από την επαφή μας. Στα επόμενα 10-20 χρόνια αρκετοί άνθρωποι θα χρησιμοποιούν στην καθημερινότητα τέτοια διαλογικά συστήματα που θα συμπεριφέρονται με αρκετά φυσικό και ανθρώπινο τρόπο.

Ο Α. Παπαγγελής είναι απόφοιτος του Τμήματος Πληροφορικής του Πανεπιστημίου Αθηνών (2008), πήρε το κοινό διδακτορικό του από το Πανεπιστήμιο του Τέξας και τον «Δημόκριτο» και, πριν την Uber, υπήρξε για δυόμισι χρόνια επικεφαλής ομάδας στην Toshiba Research στο Κέιμπριτζ.

Διαβαστε επισης