TECHin

Τεχνητή νοημοσύνη μεταφράζει άμεσα πλάκες σφηνοειδούς γραφής 5.000 ετών


Η μετάφραση δεν είναι απλώς θέμα εναλλαγής μιας λέξης με αντίστοιχη λέξη σε άλλη γλώσσα. Μια μετάφραση υψηλής ποιότητας απαιτεί από τον μεταφραστή να κατανοήσει πώς και οι δύο γλώσσες συνδυάζουν σκέψεις και στη συνέχεια να χρησιμοποιήσει αυτή τη γνώση για να δημιουργήσει μια μετάφραση, που να διατηρεί τις γλωσσικές αποχρώσεις του πρωτοτύπου, τις οποίες οι φυσικοί ομιλητές της μεταφραζόμενης γλώσσας κατανοούν αβίαστα.

Όσο δύσκολη κι αν είναι αυτή η διαδικασία, δεν είναι τίποτα σε σύγκριση με την πρόκληση της μετάφρασης μιας αρχαίας γλώσσας σε μια σύγχρονη γλώσσα. Αυτοί οι μεταφραστές πρέπει όχι μόνο να "αναστήσουν" εξαφανισμένες γλώσσες από γραπτές πηγές, αλλά και να έχουν βαθιά γνώση του τρόπου με τον οποίο εξελίχθηκαν οι πολιτισμοί που παρήγαγαν αυτές τις πηγές κατά τη διάρκεια των αιώνων. Και σαν αυτό να μην είναι αρκετό, οι πηγές τους είναι συχνά κατακερματισμένες, αφήνοντας το κρίσιμο πλαίσιο χαμένο στους αιώνες.

Εξαιτίας αυτού, ο αριθμός των ανθρώπων που μπορούν να μεταφράσουν γλώσσες από την αρχαιότητα είναι μικρός και οι καλές προσπάθειές τους συχνά ξεπερνούν τον όγκο των κειμένων που ανακάλυψαν οι αρχαιολόγοι.

Ας πάρουμε την αρχαία Ακκαδική. Αυτή η πρώιμη σημιτική γλώσσα είναι μια από τις καλύτερα πιστοποιημένες από τον αρχαίο κόσμο. Εκατοντάδες χιλιάδες, κατά μερικούς πάνω από ένα εκατομμύριο, ακκαδικά κείμενα έχουν ανακαλυφθεί και σήμερα βρίσκονται σε μουσεία και πανεπιστήμια. Πολλά έχουν ψηφιοποιηθεί ακόμη και διαδικτυακά. Ο καθένας μας έχει τη δυνατότητα να μάθει για τη ζωή, την πολιτική και τις πεποιθήσεις των πρώτων πολιτισμών, ωστόσο αυτή η γνώση παραμένει κλειδωμένη πίσω από τον χρόνο και το ανθρώπινο δυναμικό που απαιτείται για τη μετάφρασή τους.

Για να αλλάξει αυτό, μια διεπιστημονική ομάδα αρχαιολόγων και επιστημόνων υπολογιστών ανέπτυξε μια τεχνητή νοημοσύνη που μπορεί να μεταφράσει τα ακκαδικά σχεδόν αμέσως και να ξεκλειδώσει το ιστορικό αρχείο που διατηρείται σε αυτές τις "ταμπλέτες" ηλικίας 5.000 ετών.

Ακκαδική, η χαμένη γλώσσα (που βρέθηκε)

Η Ακκαδική ήταν η μητρική γλώσσα της Ακκαδικής Αυτοκρατορίας, η οποία δημιουργήθηκε γύρω στο 2300 π.Χ. μέσα από τις κατακτήσεις του ιδρυτή της, Σαργών του Μέγα. Ως προφορική γλώσσα, η ακκαδική τελικά θα χωριστεί σε ασσυριακές και βαβυλωνιακές διαλέκτους, πριν αντικατασταθεί πλήρως από την αραμαϊκή στις αρχές της πρώτης χιλιετίας π.Χ. Σήμερα, είναι μια πραγματικά εξαφανισμένη γλώσσα, χωρίς καν θυγατρικές γλώσσες να συνεχίζουν την κληρονομιά της.

Ως γραπτή γλώσσα, ωστόσο, η ακκαδική αποδείχθηκε πιο ανθεκτική. Η αυτοκρατορία δανείστηκε τη σφηνοειδή γραφή του προκατόχου της, του πολιτισμού των Σουμερίων. Αυτό το σύστημα γραφής χρησιμοποιούσε μια γραφίδα από καλάμι για να αποτυπώσει σφηνοειδείς γλυφές σε υγρές πήλινες πλάκες πριν τις ψήσει.

Ακόμη και όταν τα Αραμαϊκά αντικατέστησαν τα Ακκαδικά ως την κοινή γλώσσα της περιοχής, οι μελετητές συνέχισαν να γράφουν σε ακκαδική σφηνοειδή γραφή μέχρι τον πρώτο αιώνα μ.Χ. - ακόμη και στην αρχαιότητα φαίνεται ότι οι λόγιοι και οι ακαδημαϊκοί ήταν απίστευτα πεισματάρηδες.

Αυτή η παραδοσιακή νοοτροπία είχε ένα ακούσιο όφελος και για τους σύγχρονους αρχαιολόγους. Ενώ η σφηνοειδής γραφή μπορούσε να γραφτεί σε πάπυρο, ήταν πιο συχνά γραμμένη σε πηλό ή πέτρα. Αυτά τα υλικά αντέχουν πολύ καλύτερα στις πυρκαγιές και τις πλημμύρες που ρήμαξαν άλλα γραπτά. Και ενώ ο χρόνος είναι σκληρός για όλα τα πράγματα - οι αρχαιολόγοι σπάνια ανακαλύπτουν σφηνοειδείς πλάκες σε καλή κατάσταση - αυτός είναι ένας λόγος για τον οποίο η ακκαδική γραφή μπορεί να είναι τόσο καλά επιβεβαιωμένη στα ιστορικά αρχεία.

«Κατά ειρωνικό τρόπο, οι καταστροφικές πυρκαγιές έχουν διατηρήσει μερικές από τις μεγαλύτερες βιβλιοθήκες της αρχαίας Μεσοποταμίας - επειδή ήταν φτιαγμένες από πηλό. Αντίθετα, όλες οι βιβλιοθήκες παπύρων της αρχαίας Αιγύπτου έχουν καεί ή θρυμματιστεί σε σκόνη, αν και σώζονται πολλοί μεμονωμένοι κώδικες», γράφει ο γλωσσολόγος Στίβερ Ρότζερ Φίσερ στο "Μια ιστορία της γραφής".

Ακόμη και με τέτοιο γλωσσικό πλούτο, η σωστή μετάφραση αυτών των αρχαίων βιβλιοθηκών δεν είναι μικρό κατόρθωμα. Πέρα από τις προκλήσεις που αναφέρθηκαν ήδη, η ακκαδική γλώσσα είναι πολυδύναμη. Δηλαδή, τα σφηνοειδή του σημεία μπορεί να έχουν πολλές διαφορετικές αναγνώσεις ανάλογα με το πώς λειτουργεί το καθένα σε μια πρόταση. Υπάρχουν πολλοί λόγοι για αυτήν την εξέλιξη, αλλά σύμφωνα με τον Φίσερ, ένας λόγος που οι Ακκάδιοι δεν την απλοποίησαν ποτέ, ήταν ότι «φαίνονταν δεσμευμένοι στην παράδοση και μια αυτοεπιβαλλόμενη αποτελεσματικότητα». Αυτή η παραδοσιακή νοοτροπία τους οδήγησε να συνεχίσουν να χρησιμοποιούν τη σουμεριακή γραφή για μια γλώσσα πολύ διαφορετική από τη σουμεριακή. (Όταν πρόκειται για ιστορικές γνώσεις, κερδίζεις κάποια, χάνεις κάποια).

Ως εκ τούτου, η μετάφραση στα Ακκαδικά είναι μια διαδικασία δύο βημάτων. Πρώτον, οι μελετητές πρέπει να μεταγραφούν τα σφηνοειδή σημεία. Παίρνουν δηλαδή τη σφηνοειδή γραφή και την ξαναγράφουν, χρησιμοποιώντας την ομοειδή φωνητική της γλώσσας-στόχου. Ένα παράδειγμα με το οποίο θα γνωρίζουν οι περισσότεροι αναγνώστες είναι η αραβική λέξη الله, η οποία μεταφράζεται στα αγγλικά ως «Θεός» αλλά στην αρχική της μορφή γράφεται και προφέρεται «Αλλάχ». Αυτή η μεταγραφή είναι όσο πιο κοντά μπορεί να φτάσει το λατινικό αλφάβητο στην παραγωγή της λέξης όπως ακούγεται στα αραβικά. Στη συνέχεια, οι μελετητές παίρνουν τη μεταγραφή του κειμένου και το μεταφράζουν σε μια σύγχρονη γλώσσα.

Τεχνητή νοημοσύνη γρήγορης δράσης, άμεσα αποτελέσματα

Όπως μπορείτε να φανταστείτε, αυτή μπορεί να είναι μια μακρά και επίπονη διαδικασία - μια διαδικασία που απαιτεί χρόνια εκπαίδευσης και αφοσίωσης για να μάθει κάποιος να την κάνει καλά. Για να επιταχυνθούν τα πράγματα, η ερευνητική ομάδα ανέπτυξε ένα μοντέλο νευρωνικής μηχανικής μετάφρασης για την ακκαδική σφηνοειδή γραφή, την ίδια τεχνολογία κάτω από την κουκούλα του Google Translate.

Η ομάδα εκπαίδευσε το μοντέλο τεχνητής νοημοσύνης σε ένα δείγμα σφηνοειδών κειμένων από το Open Richly Annotated Cuneiform Corpus και το δίδαξε να μεταφράζει με δύο διαφορετικούς τρόπους. Πρώτον, το μοντέλο ΤΝ έμαθε να μεταφράζει τα ακκαδικά από μεταγραφές των αρχικών κειμένων. Έμαθε επίσης πώς να μεταφράζει απευθείας σφηνοειδή σύμβολα. Πιο συγκεκριμένα, μετέφρασε Unicode γλυφές σφηνοειδών κειμένων, που δημιουργήθηκαν από ένα άλλο εργαλείο εξοικονόμησης χρόνου, που παράγει αυτόματα Unicode από μια εικόνα μιας πρωτότυπης πλάκας.

Το μοντέλο ΤΝ έπρεπε στη συνέχεια να καταλάβει πώς να χειριστεί τις αποχρώσεις των διαφόρων ειδών του δείγματος - για παράδειγμα, τη διαφορά μεταξύ λογοτεχνικών έργων και διοικητικών επιστολών - καθώς και πώς να χειριστεί τις αλλαγές που εγιναν στη σφηνοειδή γραφή κατά τη διάρκεια των χιλιετιών που χρησιμοποιήθηκε. Στη συνέχεια δοκιμάστηκε, χρησιμοποιώντας τη δίγλωσση αξιολόγηση 4 (BLEU4), έναν αλγόριθμο που χρησιμοποιείται για την αξιολόγηση κειμένου μεταφρασμένου από μηχανή.

Στη μεταγραφή του στα αγγλικά, το μοντέλο ΤΝ της ομάδας σημείωσε βαθμολογία 37,47. Στο τεστ σφηνοειδή προς αγγλικά 36,52. Και οι δύο βαθμολογίες ήταν πάνω από το βασικό στόχο τους και στο εύρος μιας μετάφρασης υψηλής ποιότητας. Και υπήρξε ένα εκπληκτικό αποτέλεσμα: Το μοντέλο ήταν σε θέση να αναπαράγει τις αποχρώσεις του είδους κάθε δοκιμαστικής πρότασης. Αν και αυτός δεν ήταν ένας από τους στόχους του ερευνητή, σημειώνουν στη μελέτη ότι μπορεί να ανοίξει δυνατότητες για χρήσεις πέρα από τη μετάφραση.

«Σχεδόν σε κάθε περίπτωση, είτε η μετάφραση είναι σωστή είτε όχι, το είδος είναι αναγνωρίσιμο», γράφει η ομάδα. "Ένα πολλά υποσχόμενο μελλοντικό σενάριο θα ήταν, το μοντέλο να δείχνει στον χρήστη μια λίστα πηγών στις οποίες βάσισε τις μεταφράσεις του, κάτι που θα ήταν επίσης ιδιαίτερα χρήσιμο για επιστημονικούς σκοπούς."

Η ομάδα δημοσίευσε τα αποτελέσματά της στο PNAS Nexus. Επίσης κυκλοφόρησαν την έρευνά τους και τον πηγαίο κώδικα στο GitHub στην Akkademia.

Το μέλλον του... παρελθόντος φαίνεται πιο λαμπρό

Όσο ελπιδοφόρα κι αν είναι τα αρχικά αποτελέσματα, υπάρχει ακόμη δουλειά να γίνει. Και στις δύο περιπτώσεις, ορισμένες από τις δοκιμαστικές προτάσεις μεταφράστηκαν λάθος. Και όπως άλλα μοντέλα τεχνητής νοημοσύνης, έτσι και αυτό είναι επιρρεπές σε "παραισθήσεις" - στιγμές όπου η απόκριση δεν έχει σχέση με την πηγή. Σε μια περίπτωση, ο ανθρώπινος μεταφραστής παρήγαγε την πρόταση «Γιατί να κάνουμε (επίσης) τη μήνυση ενώπιον ενός άνδρα από τον Λίμπι-Αλί;». Η μετάφραση της τεχνητής νοημοσύνης ήταν: "Είναι η Εσώτερη πόλη της Εσώτερης πόλης" (λίγο μακριά...).

Συνολικά, το μοντέλο ΤΝ λειτουργεί καλύτερα όταν μεταφράζει προτάσεις μικρού έως μεσαίου μήκους. Επίσης, τα πάει καλύτερα με πιο τυποποιημένα είδη, όπως βασιλικά διατάγματα και διοικητικά αρχεία, από λογοτεχνικά είδη όπως μύθοι, ύμνοι και προφητείες.

Με περισσότερη εκπαίδευση σε ένα μεγαλύτερο σύνολο δεδομένων, σημειώνουν οι ερευνητές στη μελέτη, στοχεύουν στη βελτίωση της ακρίβειάς του. Με τον καιρό, ελπίζουν ότι το μοντέλο τεχνητής νοημοσύνης τους μπορεί να λειτουργήσει ως εικονικός βοηθός σε μελετητές. Η τεχνητή νοημοσύνη μπορεί να παρέχει την ακατέργαστη μετάφραση γρήγορα, ενώ ο μελετητής μπορεί να τη βελτιώσει με τις γνώσεις του για ιστορικές γλώσσες, πολιτισμούς και ανθρώπους.

«Εκατοντάδες χιλιάδες πήλινες πλάκες εγγεγραμμένες στη σφηνοειδή γραφή τεκμηριώνουν την πολιτική, κοινωνική, οικονομική και επιστημονική ιστορία της αρχαίας Μεσοποταμίας. Ωστόσο, τα περισσότερα από αυτά τα έγγραφα παραμένουν αμετάφραστα και απρόσιτα λόγω του τεράστιου αριθμού τους και του περιορισμένου αριθμού ειδικών που μπορούν να τα διαβάσουν», γράφει η ομάδα στη μελέτη. «Αυτό είναι ένα άλλο σημαντικό βήμα προς τη διατήρηση και τη διάδοση της πολιτιστικής κληρονομιάς της αρχαίας Μεσοποταμίας».

Διαβαστε επισης