Sussurrare silenziosamente a degli occhiali apparentemente ordinari un codice per sbloccare il proprio smartphone o riprodurre il brano successivo nella playlist, ma anche lavorare con applicazioni senza bisogno della tastiera, solo impartendo un comando a voce: sono alcune delle possibilità che offre il nuovo device indossabile chiamato EchoSpeech, sviluppato da un team dello Smart computer interfaces for future interactions lab della Cornell University, grazie a un progetto di cui è autore principale il dottorando Ruidong Zhang (nella foto, dal sito della Cornell University).
Il dispositivo è basato su un'interfaccia di riconoscimento vocale silenzioso che utilizza il rilevamento acustico e l'intelligenza artificiale per riconoscere oltre 30 comandi basati sui movimenti delle labbra e della bocca. «Sono necessari solo pochi minuti di addestramento iniziale da parte dell'utente prima che identifichi i comandi e l’operazione possa essere eseguita su uno smartphone», affermano i ricercatori in un articolo pubblicato sul sito della Cornell.
«Per le persone che non sono in grado di emettere il suono, questa tecnologia vocale silenziosa potrebbe essere un eccellente input per un sintetizzatore e potrebbe restituire ai pazienti la loro voce», dice Zhang circa il potenziale impiego grazie a ulteriori sviluppi. Nella sua forma attuale, l’occhiale EchoSpeech sarebbe utilizzabile per comunicare con altri tramite smartphone in luoghi in cui parlare è scomodo o inappropriato, come un ristorante rumoroso o una biblioteca tranquilla.
Dotati di un paio di microfoni e piccoli altoparlanti, gli occhiali EchoSpeech diventano un sistema sonar indossabile basato sull'intelligenza artificiale, che invia e riceve onde sonore attraverso il viso e rileva i movimenti della bocca. Un algoritmo di deep learning, anch'esso sviluppato dai ricercatori di SciFi Lab, le analizza quindi in tempo reale, con una precisione di circa il 95%.
La tecnologia di rilevamento acustico come EchoSpeech elimina la necessità di videocamere indossabili per il riconoscimento del labiale. «Poiché i dati audio sono molto più piccoli e leggeri di quelli immagine o dei video, richiedono meno larghezza di banda per l'elaborazione e possono essere trasmessi a uno smartphone tramite bluetooth in tempo reale - afferma nell’articolo François Guimbretière, docente di scienze dell'informazione alla Cornell e coautore dello studio, il quale sottolinea anche che, «poiché i dati vengono elaborati localmente sul proprio smartphone invece di essere caricati sul cloud, le informazioni sensibili alla privacy non lasciano mai il controllo dell’utente».
Il team sta valutando la commercializzazione della tecnologia alla base di EchoSpeech, sfruttando un programma di finanziamento dell’università, e sta esplorando le applicazioni smartglasses per tracciare i movimenti del viso, degli occhi e della parte superiore del corpo.
(red.)