Ακολουθήστε την «ΑΥΓΗ»
Ο επιλεγμένος κατάλογος δεν υπάρχει πλέον.

Η Αθήνα, πόλος έλξης των κορυφαίων ειδικών στις τεχνολογίες ομιλίας

Από 18 έως 21 Δεκεμβρίου - Για πρώτη φορά στην Ευρώπη το Διεθνές Συνέδριο Spoken Language Technology

Δύο Έλληνες ερευνητές, οι δρ. Γιάννης Στυλιανού, Apple, και δρ. Βαγγέλης Καρκαλέτσης, ΕΚΕΦΕ Δημόκριτος, Chairs του συνεδρίου, φέρνουν στην Ευρώπη για πρώτη φορά το Διεθνές Συνέδριο Τεχνολογιών Ομιλίας (SLT-Spoken Language Technology) και κάνουν την Αθήνα από τις 18 έως τις 21 Δεκεμβρίου σημείο συνάντησης για τους κορυφαίους ειδικούς των τεχνολογιών ομιλίας παγκοσμίως.

Στο συνέδριο με θέμα “Οι τεχνολογίες ομιλίας στην εποχή της βαθιάς μάθησης: Προκλήσεις και ευκαιρίες” θα συναντηθούν ερευνητές από όλο τον κόσμο και κορυφαίες εταιρείες τεχνολογίας όπως είναι οι Oben, Google, Apple, Uber, Microsoft, Amazon, Toshiba, Mitsubishi, Innoetics, Omilia και πολλές άλλες. Στη διάρκεια των τεσσάρων ημερών του συνεδρίου, 18-21 Δεκεμβρίου, θα παρουσιαστούν περισσότερες από 140 εργασίες από ερευνητές από όλο τον κόσμο.

Με τι ασχολείται το πεδίο των τεχνολογιών ομιλίας;

Στις μέρες μας η ομιλία αποτελεί βασικό κανάλι επικοινωνίας μεταξύ ανθρώπου και μηχανής. Σκεφτείτε τις εντολές που δίνετε στο κινητό σας τηλέφωνο, το GPS και την επικοινωνία με συσκευές home assistants. Οι τεχνολογίες ομιλίας έχουν σαν στόχο να κάνουν πιο εύκολη την επικοινωνία με τις ευφυείς συσκευές και τους υπολογιστές. Η ανάλυση και σύνθεση της φωνής αλλά και η μοντελοποίηση του διαλόγου είναι οι κατευθύνσεις στις οποίες εργάζονται οι ερευνητές προκειμένου να κάνουν την ομιλία των μηχανών όσο πιο φυσική -και κοντά στην ανθρώπινη- γίνεται. Τα παραπάνω μπορεί να είναι απλά για τον άνθρωπο, ωστόσο είναι εξαιρετικά πολύπλοκα για τις μηχανές. Για τον λόγο αυτό οι ερευνητές αντιμετωπίζουν μία σειρά από προκλήσεις προκειμένου να γίνει η επικοινωνία αυτή όσο πιο φυσική και απρόσκοπτη γίνεται, ακόμη και σε πολλές γλώσσες ή σε περιβάλλον με θόρυβο.

Σε τι επίπεδο βρίσκονται σήμερα οι τεχνολογίες ομιλίας;

Σύγχρονες τεχνολογικές εξελίξεις επέτρεψαν ένα ερευνητικό άλμα με την αξιοποίηση του πλούτου των δεδομένων. Όπως σχολιάζει ο δρ. Σπύρος Ράπτης, συνιδρυτής και επικεφαλής της εταιρείας INNOETICS, “ο τομέας της επεξεργασίας γλώσσας και φωνής έχει εξελιχθεί ραγδαία τα τελευταία χρόνια, ωθούμενος κι από τις εξελίξεις στους κλάδους της μηχανικής μάθησης και της επιστήμης των δεδομένων”. Η εξέλιξη αυτή είναι ηδη εμφανής στην καθημερινότητά μας, καθώς “ήδη οι ψηφιακοί προσωπικοί βοηθοί μας μάς ακούνε όλο και πιο καθαρά, μάς μιλάνε όλο και πιο φυσικά, απαντούν σε ερωτήσεις μας και μεριμνούν για το καθημερινό μας πρόγραμμα. Κι αυτά όχι σε κάποιο πειραματικό εργαστήριο αλλά σε εκατομμύρια φορητές και οικιακές συσκευές που χρησιμοποιούνται καθημερινά” όπως συμπληρώνει ο δρ. Ράπτης.

Η πρόοδος αυτή είναι φυσικά αποτέλεσμα πολυετούς ερευνητικής προσπάθειας στο πεδίο των τεχνολογιών ομιλίας. Όπως αναφέρει και η δρ. Δήμητρα Βεργύρη, διευθύντρια του εργαστηρίου STAR (Speech Technology and Research Laboratory) στο Ερευνητικό Κέντρο SRI στις ΗΠΑ, “η αναγνώριση και ανάλυση φωνής είδε μεγάλη πρόοδο στα τελευταία 10 χρόνια, κυρίως λόγω της εφαρμογής νέων μοντέλων νευρωνικών δικτύων και αλγορίθμων βαθιάς μάθησης (deep learning) σε μεγάλες ποσότητες δεδομενων”. Η ολοένα αυξανόμενη παρουσία των τεχνολογιών αυτών στις συσκευές που χρησιμοποιούμε όλοι, όπως είναι λογικό αυξάνει τις απαιτήσεις των χρηστών. “Εφαρμογές σε smartphones και smartspeakers έχουν φέρει την τεχνολογία σε καθημερινή χρήση από εκατομμύρια χρήστες και έχουν αυξήσει τις προσδοκίες για άψογη λειτουργία, παντού και πάντοτε” υπογραμμίζει η δρ. Βεργύρη.

Οι μεγάλες ερευνητικές προκλήσεις για το μέλλον

Οι προσδοκίες των χρηστών για φυσική αλληλεπίδραση με τις μηχανές φαίνεται να είναι εκείνες που οδηγούν και την έρευνα. Όπως αναφέρει και η δρ. Βεργύρη, “η πρόκληση που βλέπω να έχει ο τομέας στο κοντινό μέλλον είναι να ικανοποιήσει τις προσδοκίες των χρηστών, πετυχαίνοντας αποδόσεις για ανάλυση και κατανόηση φωνής παρόμοιες με τις ανθρώπινες ικανότητες. Οι χρήστες περιμένουν η τεχνολογία να λειτουργεί σε όλες τις γλώσσες, ακόμα και σε συνθήκες με θόρυβο, ή με το μικρόφωνο μακριά από το χρήστη, ή με χρήστες με ιδιοσυγκρασίες στη φωνή τους”. Μπορεί όμως μια μηχανή να κατανοήσει τα όριά της και σε ποιον αναζητά βοήθεια; “Είναι σημαντικό για τα συστήματα επεξεργασίας και ανάλυσης φωνής να μπορούν να αναγνωρίσουν τι δεν ξέρουν: Όταν τους παρουσιάζεται ηχητικό σήμα που δεν μπορούν να επεξεργαστούν αξιόπιστα, αυτομάτως να μπορούν να ειδοποιήσουν τον χρήστη και να λάβουν μέτρα να βελτιώσουν το αποτέλεσμα, όπως θα έκανε και ένας άνθρωπος στη θέση τους” απαντά η διευθύντρια του εργαστηρίου STAR.

Καθώς γίνεται εμφανές ότι οι μηχανές δεν είναι αλάνθαστες, οι επιστήμονες καλούνται να διαχειριστούν τις αστοχίες: “Μία πρόκληση, φυσικά, είναι να αντιμετωπίσουμε τα σενάρια όπου οι υφιστάμενες τεχνολογίες ομιλίας αποτυγχάνουν. Αυτή η πρόκληση ήδη λαμβάνει μεγάλη προσοχή σε ερευνητικό επίπεδο” μας λέει η δρ. Karen Livescu, αναπληρώτρια καθηγήτρια στο Τεχνολογικό Ινστιτούτο της Toyota στο Chicago. “Μετά από αυτό, οι επόμενες μεγάλες προκλήσεις είναι η ερμηνεία του 'νοήματος στην ομιλούμενη γλώσσα -συμπεριλαμβανομένων όλων των αποχρώσεων που αντιστοιχούν στον τόνο της φωνής, τις παύσεις και ούτω καθεξής- και την ερμηνεία της ομιλίας σε διαφορετικό πλαίσιο. Αυτές οι προκλήσεις έχουν επίσης μελετηθεί για σχετικά μεγάλο χρονικό διάστημα, αλλά νομίζω ότι τώρα βρίσκονται σε ένα στάδιο όπου ο τομέας θα μπορούσε να κάνει μεγάλα βήματα στο κοντινό μέλλον” συμπληρώνει η ερευνήτρια.

Όσο οι τεχνολογίες βελτιώνονται και καταφέρνουν να αναγνωρίζουν καλύτερα τι λέμε και τι εννοούμε, οι ερευνητές καλούνται να υπερβούν ένα ακόμη όριο. Η εξατομίκευση των συστημάτων, ώστε να καταλαβαίνουν την προσωπική μας ανάγκη, στην καθημερινότητά μας, αποτελείν στόχο υπό εξέταση. Ο Σπύρος Ράπτης, της INNOETICS μας υποδεικνύει αυτήν την τάση: “Η επόμενή μας πρόκληση είναι να δώσουμε σε αυτούς τους βοηθούς τις ικανότητες που χρειάζονται για να μας είναι πραγματικά χρήσιμοι στο να διεκπεραιώνουμε εργασίες και να επιτυγχάνουμε καθημερινούς στόχους. Για να φτάσουμε εκεί, θα χρειαστεί να εξελίξουμε περαιτέρω τις επιμέρους τεχνολογίες ώστε να αμβλυνθούν οι γλωσσικοί, γνωσιακοί αλλά και επικοινωνιακοί περιορισμοί που ακόμη αντιμετωπίζουν. Κι αυτό, επινοώντας νέους τρόπους που να συνδυάζουν αποδοτικά την αντίληψη που έχουμε για τις ανάγκες, τις προτιμήσεις και τις προσδοκίες των ανθρώπων με τα μαζικά αλλά και ατομικά δεδομένα που παράγονται από τη αλληλεπίδρασή μας με την τεχνολογία. Μόνο τότε οι βοηθοί αυτοί θα μπορέσουν να αναπτύξουν την πραγματική τους δυναμική και να γίνουν ουσιαστικό κομμάτι της καθημερινότητάς μας”.

Περισσότερες πληροφορίες για το συνέδριο μπορείτε να αναζητήσετε στον σύνδεσμο: www.slt2018.org

Λήδα Αρνέλλου

Δείτε όλα τα σχόλια

Κύριο άρθρο

Προοδευτικός πόλος: από την εξαγγελία στην πράξη

Η σύγκλιση των προοδευτικών δυνάμεων είναι σήμερα το μεγάλο ζητούμενο για την Ελλάδα και την Ευρώπη. Πόσο εύκολο όμως είναι να υλοποιηθεί ένα τέτοιο σχέδιο; Και ποιες είναι οι αντιφάσεις και τα προβλήματα που πρέπει να ξεπεραστούν;

Δειτε ολοκληρο το αρθρο