Σας έχει τύχει ποτέ να δείτε μία όμορφη φωτογραφία από ένα ωραίο τοπίο λόγου χάρη, και να μην μπορείτε με κανένα τρόπο να εντοπίσετε ποιο είναι το μέρος που απεικονίζει; Η Google έρχεται να δώσει λύση στο πρόβλημα αυτό μέσα από ένα νέο είδος λογισμικού.
Μία ερευνητική ομάδα, με επικεφαλής τον Τομπάιας Γουέιαντ, ανέπτυξαν ένα λογισμικό «βαθιάς μάθησης», το οποίο κάνει γεωεντοπισμό της φωτογραφίας, χρησιμοποιώντας μόνο πληροφορίες από τα εικονοστιχεία (πίξελ) της.
Μπορεί το εγχείρημα αυτό να φαντάζει δύσκολο, δεδομένου ότι μία φωτογραφία δεν δίνει πολλές πληροφορίες, ωστόσο δεν είναι αδύνατο.
Μερικές φορές οι άνθρωποι χρησιμοποιούν ενδείξεις, όπως ο καιρός, τα φυτά, διάφορα αντικείμενα κ.α. που φαίνονται στη φωτογραφία, για να βγάλουν συμπεράσματα - άλλες φορές με επιτυχία και άλλες όχι. Υπάρχουν και σχετικοί διαδικτυακοί τόποι όπως το GeoGuessr και το View from your Window, όπου οι χρήστες δοκιμάζουν τις ικανότητές τους.
Επί της ουσίας οι ερευνητές ακολούθησαν μια τελείως διαφορετική μέθοδο υπολογιστικής όρασης. Τοποθέτησαν ένα πλέγμα πάνω σε ένα ψηφιακό κόσμο, χωρίζοντας έτσι την επιφάνεια του πλανήτη σε χιλιάδες τετραγωνάκια διαφορετικών μεγεθών, ανάλογα με το πόσες φωτογραφίες τραβιούνται στην πραγματικότητα (π.χ. σε μια πόλη όπως η Νέα Υόρκη τραβιούνται πολύ περισσότερες φωτογραφίες από ό,τι σε μια έρημο, άρα το τετραγωνάκι της μεγαλούπολης είναι μεγαλύτερο).
Στη συνέχεια, τροφοδότησαν το λογισμικό τους με εκατομμύρια αποθηκευμένες φωτογραφίες, που συνοδεύονταν από πληροφορίες γεωεντοπισμού. Ακολούθως, το πρόγραμμα, που διαθέτει νευρωνική νοημοσύνη, δημιούργησε συσχετίσεις και αντιστοιχίες ανάμεσα στα πίξελ των εικόνων και στα τα μέρη όπου τραβήχτηκαν οι φωτογραφίες.
Η εφαμοργή φυσικά βρίσκεται σε πολύ πρώιμα στάδια αι δεν έχει κυκλοφορήσει προς χρήση.
Η εφαρμογή δοκιμάσθηκε με 2,3 εκατομμύρια φωτογραφίες από το Flickr. Όπως διαπιστώθηκε, κατάφερε να «πέσει μέσα» σε ποσοστό 48% όσον αφορά την ήπειρο που τραβήχτηκε μια φωτογραφία, 28,4% όσον αφορά τη συγκεκριμένη χώρα, 10,1% για την πόλη όπου έγινε η λήψη της φωτογραφίας και 3,6% για τον συγκεκριμένο δρόμο της πόλης.
Ίσως τα ποσοστά αυτά να μην φαίνονται εντυπωσιακά, αλλά ένας άνθρωπος δεν μπορεί να τα καταφέρει τόσο καλά, όταν βλέπει μια φωτογραφία που έχει τραβηχτεί κάπου στη Γη. Αυτό αποδείχθηκε, όταν οι τρεις ερευνητές αντιπαράθεσαν την εφαρμογή τους με τις επιδόσεις δέκα ανθρώπων σε ένα πείραμα.
Το επόμενο βήμα για τη βελτίωση της εφαρμογής θα είναι η ενσωμάτωση της ικανότητας να αναγνωρίζει αντικείμενα και άλλα γνωρίσματα (χρώμα δέρματος ανθρώπων, αρχιτεκτονική κτιρίων, είδος δέντρων, πινακίδες οδικής κυκλοφορίας κ.α.) και να τα συσχετίζει με συγκεκριμένες τοποθεσίες.