El nombre d'aplicacions i la importància de les interfícies de veu està creixent ràpidament: AvtoTachki

Contingut

quatre grans
Els nord-americans volen comprar
Rentar, coure, netejar!
Antic concepte. Per fi ha arribat el seu moment?
pregunta tècnicament difícil
veu? Arts gràfiques? O potser tots dos?
Compte amb la seguretat!

Una família nord-americana de Portland, Oregon, va saber recentment que l'assistent de veu d'Alex va gravar els seus xats privats i els va enviar a un amic. La propietària de la casa, batejada pels mitjans de comunicació Danielle, va dir als periodistes que "no tornaria a connectar aquest dispositiu perquè no es pot confiar en ella".

Alexa, proporcionat pels altaveus Echo (1) i altres aparells a desenes de milions de llars dels EUA, comença a gravar quan escolta el seu nom o "paraula de trucada" pronunciada per l'usuari. Això vol dir que fins i tot si la paraula "Alexa" s'esmenta en un anunci de televisió, el dispositiu pot començar a gravar. Això és exactament el que va passar en aquest cas, diu Amazon, el distribuïdor de maquinari.

"La resta de la conversa va ser interpretada per l'assistent de veu com una ordre per enviar un missatge", va dir la companyia en un comunicat. "En algun moment, Alexa va preguntar en veu alta: "A qui?" La continuació de la conversa familiar sobre terres de fusta dura hauria d'haver estat percebuda per la màquina com un element a la llista de contactes del client". Almenys això és el que pensa Amazon. Així, la traducció es redueix a una sèrie d'accidents.

L'ansietat, però, es manté. Perquè per alguna raó, en una casa on encara ens sentim a gust, hem d'entrar en una mena de "mode de veu", mirar què diem, què està emetent la televisió i, per descomptat, què és aquest nou altaveu al pit de calaixos diu. nosaltres.

Malgrat això, Malgrat les imperfeccions tecnològiques i els problemes de privadesa, amb l'augment de la popularitat de dispositius com l'Amazon Echo, la gent comença a acostumar-se a la idea d'interactuar amb ordinadors mitjançant la seva veu..

Tal com va assenyalar Werner Vogels, CTO d'Amazon, durant la seva sessió d'AWS re:Invent a finals de 2017, la tecnologia ha limitat fins ara la nostra capacitat d'interactuar amb ordinadors. Escrivim paraules clau a Google mitjançant el teclat, ja que aquesta segueix sent la forma més comuna i senzilla d'introduir informació a la màquina.

Va dir en Vogels. -

quatre grans

Quan utilitzeu el motor de cerca de Google al telèfon, probablement hem notat un signe de micròfon amb una trucada per parlar fa molt de temps. Això Google ara (2), que es pot utilitzar per dictar una consulta de cerca, introduir un missatge per veu, etc. En els darrers anys, Google, Apple i Amazon han millorat molt. tecnologia de reconeixement de veu. Els assistents de veu com Alexa, Siri i Google Assistant no només enregistren la teva veu, sinó que també entenen el que els dius i responen preguntes.

Google Now està disponible de forma gratuïta per a tots els usuaris d'Android. L'aplicació pot, per exemple, configurar una alarma, consultar la previsió meteorològica i consultar la ruta a Google Maps. Extensió conversacional dels estats de Google Now Assistent de Google () – Assistència virtual a l'usuari de l'equip. Està disponible principalment en dispositius mòbils i domèstics intel·ligents. A diferència de Google Now, pot participar en un intercanvi bidireccional. L'assistent va debutar el maig de 2016 com a part de l'aplicació de missatgeria de Google Allo, així com a l'altaveu de veu de Google Home (3).

3. Google Home

El sistema IOS també té el seu propi assistent virtual, Siri, que és un programa inclòs amb els sistemes operatius d'Apple iOS, watchOS, tvOS homepod i macOS. Siri va debutar amb iOS 5 i l'iPhone 4s l'octubre de 2011 a la conferència Let's Talk iPhone.

El programari es basa en una interfície de conversa: reconeix la parla natural de l'usuari (amb iOS 11 també és possible introduir ordres manualment), respon preguntes i realitza tasques. Gràcies a la introducció de l'aprenentatge automàtic, un assistent al llarg del temps analitza les preferències personals l'usuari per oferir resultats i recomanacions més rellevants. Siri requereix una connexió a Internet constant: les principals fonts d'informació aquí són Bing i Wolfram Alpha. iOS 10 va introduir suport per a extensions de tercers.

Un altre dels quatre grans Cortana. És un assistent personal intel·ligent creat per Microsoft. És compatible amb les plataformes Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android i iOS. Cortana es va presentar per primera vegada a la Microsoft Build Developer Conference l'abril de 2014 a San Francisco. El nom del programa prové del nom d'un personatge de la sèrie de jocs Halo. Cortana està disponible en anglès, italià, espanyol, francès, alemany, xinès i japonès.

Usuaris del programa ja esmentat Alexa també han de tenir en compte les restriccions d'idioma: l'assistent digital només parla anglès, alemany, francès i japonès.

L'Amazon Virtual Assistant es va utilitzar per primera vegada als altaveus intel·ligents Amazon Echo i Amazon Echo Dot desenvolupats per Amazon Lab126. Permet la interacció de veu, la reproducció de música, la creació de llistes de tasques pendents, la configuració d'alarma, la reproducció de podcasts, la reproducció d'audiollibres i informació sobre el temps, el trànsit, els esports i altres notícies en temps real, com ara notícies (4). Alexa pot controlar diversos dispositius intel·ligents per crear un sistema domòtic. També es pot utilitzar per fer compres còmodes a la botiga Amazon.

4. Per a què utilitzen Echo els usuaris (segons investigacions)

Els usuaris poden millorar l'experiència d'Alexa instal·lant les "habilitats" d'Alexa (), funcions addicionals desenvolupades per tercers, més comunament anomenades aplicacions com ara programes meteorològics i d'àudio en altres configuracions. La majoria dels dispositius Alexa us permeten activar el vostre assistent virtual amb una contrasenya de despertador, anomenada .

Amazon definitivament domina el mercat dels altaveus intel·ligents avui (5). IBM, que va presentar un nou servei el març de 2018, està intentant entrar entre els quatre primers assistent de Watson, pensat per a empreses que volen crear els seus propis sistemes d'assistents virtuals amb control per veu. Quin és l'avantatge de la solució IBM? Segons els representants de l'empresa, en primer lloc, sobre oportunitats molt més grans de personalització i protecció de la privadesa.

En primer lloc, Watson Assistant no té la marca. Les empreses poden crear les seves pròpies solucions en aquesta plataforma i etiquetar-les amb la seva pròpia marca.

En segon lloc, poden entrenar els seus sistemes d'assistència utilitzant els seus propis conjunts de dades, cosa que segons IBM fa que sigui més fàcil afegir funcions i ordres a aquest sistema que altres tecnologies VUI (interfície d'usuari de veu).

En tercer lloc, Watson Assistant no proporciona a IBM informació sobre l'activitat dels usuaris: els desenvolupadors de solucions de la plataforma només poden guardar dades valuoses per a ells mateixos. Mentrestant, qualsevol persona que construeixi dispositius, per exemple amb Alexa, hauria de ser conscient que les seves valuoses dades acabaran a Amazon.

Watson Assistant ja té diverses implementacions. El sistema va ser utilitzat, per exemple, per Harman, que va crear un assistent de veu per al concept car Maserati (6). A l'aeroport de Munic, un assistent d'IBM impulsa un robot Pepper per ajudar els passatgers a moure's. El tercer exemple és Chameleon Technologies, on la tecnologia de veu s'utilitza en un comptador de casa intel·ligent.

6. Watson Assistant en un concept car Maserati

Val la pena afegir que la tecnologia subjacent tampoc no és nova. Watson Assistant inclou capacitats de xifratge per als productes IBM existents, Watson Conversation i Watson Virtual Agent, així com API per a l'anàlisi de l'idioma i el xat.

Amazon no només és líder en tecnologia de veu intel·ligent, sinó que l'està convertint en un negoci directe. Tanmateix, algunes empreses han experimentat amb la integració d'Echo molt abans. Sisense, una empresa del sector de la BI i l'anàlisi, va presentar la integració Echo el juliol de 2016. Al seu torn, la startup Roxy va decidir crear el seu propi programari i maquinari amb control de veu per a la indústria de l'hostaleria. A principis d'any, Synqq va presentar una aplicació per prendre notes que utilitza el processament de veu i llenguatge natural per afegir notes i entrades de calendari sense haver d'escriure-les al teclat.

Totes aquestes petites empreses tenen grans ambicions. Sobretot, però, van saber que no tots els usuaris volen transferir les seves dades a Amazon, Google, Apple o Microsoft, que són els actors més importants en la construcció de plataformes de comunicació de veu.

Els nord-americans volen comprar

El 2016, la cerca per veu va representar el 20% de totes les cerques mòbils de Google. Les persones que utilitzen aquesta tecnologia diàriament citen la seva comoditat i la seva multitasca entre els seus avantatges més importants. (per exemple, la possibilitat d'utilitzar un motor de cerca mentre condueix un cotxe).

Els analistes de Visiongain estimen el valor de mercat actual dels assistents digitals intel·ligents en 1,138 milions de dòlars. Cada cop hi ha més mecanismes d'aquest tipus. Segons Gartner, a finals del 2018 ja 30% de les nostres interaccions amb la tecnologia serà a través de converses amb sistemes de veu.

La firma d'investigació britànica IHS Markit estima que el mercat d'assistents digitals amb intel·ligència artificial arribarà als 4 milions de dispositius a finals d'aquest any, i aquest nombre podria augmentar fins als 2020 milions el 7.

Segons informes d'eMarketer i VoiceLabs, 2017 milions de nord-americans van utilitzar el control de veu almenys una vegada al mes el 35,6. Això suposa un augment de gairebé un 130% respecte a l'any anterior. S'espera que només el mercat d'assistents digitals creixi el 2018% en 23. Això vol dir que ja els utilitzareu. 60,5 milions d'americans, que donarà lloc a diners concrets per als seus productors. RBC Capital Markets estima que la interfície Alexa generarà fins a 2020 milions de dòlars en ingressos per a Amazon el 10.

Rentar, coure, netejar!

Les interfícies de veu estan entrant cada cop amb més valentia als mercats dels electrodomèstics i de l'electrònica de consum. Això ja es va poder veure durant l'exposició IFA 2017 de l'any passat. L'empresa nord-americana Neato Robotics va presentar, per exemple, un robot aspirador que es connecta a una de les diverses plataformes domèstiques intel·ligents, inclòs el sistema Amazon Echo. Parlant amb l'altaveu intel·ligent Echo, podeu indicar a la màquina que netegi tota la casa a hores específiques del dia o de la nit.

A la fira es van mostrar altres productes activats per veu, que van des de televisors intel·ligents venuts amb la marca Toshiba per l'empresa turca Vestel fins a mantes escalfades de l'empresa alemanya Beurer. Molts d'aquests dispositius electrònics també es poden activar de forma remota mitjançant telèfons intel·ligents.

No obstant això, segons els representants de Bosch, és massa aviat per dir quina de les opcions d'assistent a la llar serà dominant. A l'IFA 2017, un grup tècnic alemany va mostrar rentadores (7), forns i cafeteres que es connecten a Echo. Bosch també vol que els seus dispositius siguin compatibles amb les plataformes de veu de Google i Apple en el futur.

7. Rentadora Bosch que es connecta a Amazon Echo

Empreses com Fujitsu, Sony i Panasonic estan desenvolupant les seves pròpies solucions d'assistent de veu basades en IA. Sharp està afegint aquesta tecnologia als forns i petits robots que entren al mercat. Nippon Telegraph & Telephone està contractant fabricants de maquinari i joguines per adaptar un sistema d'intel·ligència artificial controlat per veu.

Antic concepte. Per fi ha arribat el seu moment?

De fet, el concepte d'interfície d'usuari de veu (VUI) fa dècades que existeix. Qualsevol que va veure Star Trek o 2001: una odissea de l'espai fa anys probablement s'esperava que cap a l'any 2000 tots controlaríem els ordinadors amb les nostres veus. A més, no només els escriptors de ciència ficció van veure el potencial d'aquest tipus d'interfície. El 1986, els investigadors de Nielsen van preguntar als professionals informàtics quin creien que seria el canvi més gran en les interfícies d'usuari per a l'any 2000. Sovint van assenyalar el desenvolupament d'interfícies de veu.

Hi ha raons per esperar una solució així. La comunicació verbal és, al cap i a la fi, la manera més natural perquè les persones intercanviïn pensaments conscientment, de manera que utilitzar-la per a la interacció home-màquina sembla la millor solució fins ara.

Un dels primers VUI, anomenat caixa de sabates, va ser creat a principis dels anys 60 per IBM. Va ser el precursor dels sistemes de reconeixement de veu actuals. Tanmateix, el desenvolupament de dispositius VUI es va veure limitat pels límits de la potència de càlcul. Analitzar i interpretar la parla humana en temps real requereix molt d'esforç, i van trigar més de cinquanta anys a arribar al punt on realment es va fer possible.

Els dispositius amb interfície de veu van començar a aparèixer en producció en massa a mitjans dels anys 90, però no van guanyar popularitat. El primer telèfon amb control de veu (marcació) va ser Philips Sparkllançat el 1996. Tanmateix, aquest dispositiu innovador i fàcil d'utilitzar no estava exempt de limitacions tecnològiques.

Altres telèfons equipats amb formes d'interfície de veu (creats per empreses com RIM, Samsung o Motorola) surten regularment al mercat, que permeten als usuaris marcar per veu o enviar missatges de text. Totes elles, però, requerien memoritzar ordres concretes i pronunciar-les d'una forma forçada, artificial, adaptada a les capacitats dels aparells d'aquella època. Això va generar un gran nombre d'errors que, al seu torn, van provocar la insatisfacció dels usuaris.

Tanmateix, ara estem entrant en una nova era de la informàtica, en la qual els avenços en l'aprenentatge automàtic i el desenvolupament de la intel·ligència artificial estan alliberant el potencial de la conversa com a nova forma d'interactuar amb la tecnologia (8). El nombre de dispositius que admeten la interacció de veu s'ha convertit en un factor important que ha tingut un gran impacte en el desenvolupament de VUI. Actualment, gairebé 1/3 de la població mundial ja posseeix telèfons intel·ligents que es poden utilitzar per a aquest tipus de comportament. Sembla que la majoria dels usuaris finalment estan preparats per adaptar les seves interfícies de veu.

8. Història moderna del desenvolupament de la interfície de veu

Tanmateix, abans de poder parlar lliurement amb un ordinador, com van fer els herois d'A Space Odyssey, hem de superar una sèrie de problemes. Les màquines encara no són gaire bones per manejar els matisos lingüístics. A més moltes persones encara se senten incòmodes donant ordres de veu a un motor de cerca.

Les estadístiques mostren que els assistents de veu s'utilitzen principalment a casa o entre amics propers. Cap dels entrevistats va admetre utilitzar la cerca per veu en llocs públics. Tanmateix, és probable que aquest bloqueig desaparegui amb la difusió d'aquesta tecnologia.

pregunta tècnicament difícil

El problema al qual s'enfronten els sistemes (ASR) és extreure dades útils d'un senyal de parla i associar-les a una paraula determinada que té un cert significat per a una persona. Els sons produïts són diferents cada vegada.

Variabilitat del senyal de parla és la seva propietat natural, gràcies a la qual, per exemple, reconeixem un accent o una entonació. Cada element del sistema de reconeixement de veu té una tasca específica. A partir del senyal processat i dels seus paràmetres, es crea un model acústic, que s'associa al model de llenguatge. El sistema de reconeixement pot funcionar a partir d'un nombre petit o gran de patrons, que determina la mida del vocabulari amb el qual treballa. Poden ser-ho petits diccionaris en el cas de sistemes que reconeixen paraules o ordres individuals, així com grans bases de dades que conté l'equivalent del conjunt de llengües i tenint en compte el model de llengua (gramàtica).

Problemes als quals s'enfronten les interfícies de veu en primer lloc comprendre correctament el discurs, en què, per exemple, sovint s'ometen seqüències gramaticals senceres, es produeixen errors lingüístics i fonètics, errors, omissions, defectes de parla, homònims, repeticions injustificades,... Tots aquests sistemes ACP han de funcionar de manera ràpida i fiable. Almenys aquestes són les expectatives.

La font de les dificultats també són senyals acústics diferents de la parla reconeguda que entren a l'entrada del sistema de reconeixement, és a dir. tots els tipus interferències i sorolls. En el cas més senzill, els necessiteu filtrar. Aquesta tasca sembla rutinària i fàcil: després de tot, es filtren diversos senyals i cada enginyer electrònic sap què fer en aquesta situació. Tanmateix, això s'ha de fer amb molta cura i cura si el resultat del reconeixement de la parla ha de satisfer les nostres expectatives.

El filtrat que s'utilitza actualment permet eliminar, juntament amb el senyal de parla, el soroll extern captat pel micròfon i les propietats internes del propi senyal de parla, que dificulten el seu reconeixement. No obstant això, sorgeix un problema tècnic molt més complex quan la interferència del senyal de parla analitzat és... un altre senyal de parla, és a dir, per exemple, discussions fortes al voltant. Aquesta pregunta es coneix a la literatura com l'anomenada . Això ja requereix l'ús de mètodes complexos, els anomenats. deconvolució (desentranyant) el senyal.

Els problemes amb el reconeixement de veu no acaben aquí. Val la pena adonar-se que la parla porta molts tipus diferents d'informació. La veu humana suggereix el gènere, l'edat, els diferents caràcters del propietari o el seu estat de salut. Hi ha un ampli departament d'enginyeria biomèdica que s'ocupa del diagnòstic de diverses malalties a partir dels fenòmens acústics característics que es troben en el senyal de parla.

També hi ha aplicacions on la finalitat principal de l'anàlisi acústica d'un senyal de parla és identificar l'orador o comprovar que és qui diu ser (veu en lloc de clau, contrasenya o codi PUK). Això pot ser important, especialment per a les tecnologies de construcció intel·ligent.

El primer component d'un sistema de reconeixement de veu és un micròfon. Tanmateix, el senyal captat pel micròfon acostuma a ser de poca utilitat. Els estudis mostren que la forma i el curs de l'ona sonora varien molt segons la persona, la velocitat de la parla i, en part, l'estat d'ànim de l'interlocutor, mentre que en petita mesura reflecteixen el contingut mateix de les ordres pronunciades.

Per tant, el senyal s'ha de processar correctament. L'acústica, la fonètica i la informàtica modernes en conjunt proporcionen un conjunt ric d'eines que es poden utilitzar per processar, analitzar, reconèixer i comprendre un senyal de parla. L'espectre dinàmic del senyal, l'anomenat espectrogrames dinàmics. Són bastant fàcils d'obtenir, i la parla presentada en forma d'espectrograma dinàmic és relativament fàcil de reconèixer mitjançant tècniques similars a les utilitzades en el reconeixement d'imatges.

Els elements simples de la parla (per exemple, les ordres) es poden reconèixer per la simple similitud d'espectrogrames sencers. Per exemple, un diccionari de telèfon mòbil activat per veu conté només unes quantes desenes a uns quants centenars de paraules i frases, normalment pre-apilades perquè es puguin identificar de manera fàcil i eficient. Això és suficient per a tasques de control senzilles, però limita molt l'aplicació general. Els sistemes construïts segons l'esquema, per regla general, només admeten altaveus específics per als quals les veus estan especialment entrenades. Per tant, si hi ha algú nou que vol utilitzar la seva veu per controlar el sistema, probablement no serà acceptat.

El resultat d'aquesta operació s'anomena espectrograma 2-W, és a dir, un espectre bidimensional. Hi ha una activitat més en aquest bloc a la qual val la pena prestar atenció: segmentació. En termes generals, estem parlant de dividir un senyal de parla continu en parts que es poden reconèixer per separat. Només a partir d'aquests diagnòstics individuals es fa el reconeixement del conjunt. Aquest procediment és necessari perquè no és possible identificar un discurs llarg i complex d'una vegada. Ja s'han escrit volums sencers sobre quins segments cal distingir en un senyal de parla, de manera que ara no decidirem si els segments distingits han de ser fonemes (equivalents sonors), síl·labes o potser al·lòfons.

El procés de reconeixement automàtic sempre fa referència a algunes característiques dels objectes. S'han provat centenars de conjunts de paràmetres diferents per al senyal de veu. El senyal de parla ha dividit en marcs reconeguts i tenir característiques seleccionadesmitjançant el qual aquests fotogrames es presenten en el procés de reconeixement, podem realitzar (per a cada fotograma per separat) classificació, és a dir assignant un identificador al marc, que el representarà en el futur.

Pròxima etapa assemblatge de marcs en paraules separades - més sovint basat en l'anomenat. model de models implícits de Markov (HMM-). Després ve el muntatge de paraules frases completes.

Ara podem tornar al sistema Alexa per un moment. El seu exemple mostra un procés multietapa de la màquina "comprensió" d'una persona, més precisament: una ordre donada per ella o una pregunta feta.

Entendre les paraules, comprendre el significat i comprendre la intenció de l'usuari són coses completament diferents.

Per tant, el següent pas és el treball del mòdul PNL (), la tasca del qual és reconeixement de la intenció de l'usuari, és a dir el significat de l'ordre/pregunta en el context en què s'ha pronunciat. Si s'identifica la intenció, aleshores assignació de les anomenades habilitats i habilitats, és a dir, la funció específica admesa per l'assistent intel·ligent. En el cas d'una pregunta sobre el temps, es criden fonts de dades meteorològiques, que encara s'han de processar en veu (TTS - mecanisme). Com a resultat, l'usuari escolta la resposta a la pregunta formulada.

veu? Arts gràfiques? O potser tots dos?

La majoria dels sistemes d'interacció moderns coneguts es basen en un intermediari anomenat interfaç gràfica d'usuari (interfície gràfica). Malauradament, la GUI no és la manera més òbvia d'interactuar amb un producte digital. Això requereix que els usuaris primer aprenguin a utilitzar la interfície i recordin aquesta informació amb cada interacció posterior. En moltes situacions, la veu és molt més convenient, perquè podeu interactuar amb la VUI simplement parlant amb el dispositiu. Una interfície que no obliga els usuaris a memoritzar i memoritzar determinades ordres o mètodes d'interacció causa menys problemes.

Per descomptat, l'expansió de VUI no significa abandonar les interfícies més tradicionals, sinó que hi haurà interfícies híbrides que combinen diverses maneres d'interactuar.

La interfície de veu no és adequada per a totes les tasques en un context mòbil. Amb això, trucarem a un amic que condueix un cotxe i fins i tot li enviarem un SMS, però comprovar les últimes transferències pot ser massa difícil, a causa de la quantitat d'informació transmesa al sistema () i generada pel sistema (sistema). Com suggereix Rachel Hinman al seu llibre Mobile Frontier, l'ús de VUI esdevé més efectiu quan es realitzen tasques on la quantitat d'informació d'entrada i sortida és petita.

Un telèfon intel·ligent connectat a Internet és convenient però també incòmode (9). Cada vegada que un usuari vol comprar alguna cosa o utilitzar un servei nou, s'ha de descarregar una altra aplicació i crear un compte nou. Aquí s'ha creat un camp per a l'ús i desenvolupament d'interfícies de veu. En lloc d'obligar els usuaris a instal·lar moltes aplicacions diferents o crear comptes separats per a cada servei, els experts diuen que VUI traslladarà la càrrega d'aquestes feixugues tasques a un assistent de veu amb intel·ligència artificial. Serà convenient que realitzi activitats extenuants. Només li donarem ordres.

9. Interfície de veu mitjançant telèfon intel·ligent

Avui dia, més que un telèfon i un ordinador estan connectats a Internet. També es connecten a la xarxa termòstats intel·ligents, llums, bullidors i molts altres dispositius integrats en IoT (10). Per tant, hi ha dispositius sense fil al nostre voltant que omplen les nostres vides, però no tots encaixen de manera natural a la interfície gràfica d'usuari. L'ús de VUI us ajudarà a integrar-los fàcilment al nostre entorn.

10. Interfície de veu amb Internet de les coses

La creació d'una interfície d'usuari de veu aviat es convertirà en una habilitat clau del dissenyador. Aquest és un problema real: la necessitat d'implementar sistemes de veu us animarà a centrar-vos més en el disseny proactiu, és a dir, intentar entendre les intencions inicials de l'usuari, anticipant-vos a les seves necessitats i expectatives en cada etapa de la conversa.

La veu és una manera eficient d'introduir dades: permet als usuaris emetre ordres al sistema ràpidament segons els seus propis termes. D'altra banda, la pantalla proporciona una manera eficient de mostrar informació: permet als sistemes mostrar una gran quantitat d'informació al mateix temps, reduint la càrrega de la memòria dels usuaris. És lògic que combinar-los en un sol sistema soni encoratjador.

Els altaveus intel·ligents com Amazon Echo i Google Home no ofereixen cap pantalla visual. Millorant significativament la precisió del reconeixement de veu a distàncies moderades, permeten un funcionament amb mans lliures, que al seu torn augmenta la seva flexibilitat i eficiència; són desitjables fins i tot per als usuaris que ja tenen telèfons intel·ligents amb control de veu. Tanmateix, la manca d'una pantalla és una gran limitació.

Només es poden utilitzar bips per informar els usuaris de possibles ordres, i llegir la sortida en veu alta es fa tediós excepte per a les tasques més bàsiques. Configurar un temporitzador amb un comandament de veu mentre es cuina és fantàstic, però no és necessari fer-te preguntar quant de temps queda. Obtenir una previsió meteorològica regular es converteix en una prova de memòria per a l'usuari, que ha d'escoltar i absorbir una sèrie de fets durant tota la setmana, en lloc de recollir-los de la pantalla d'un cop d'ull.

Els dissenyadors ja ho han fet solució híbrida, Echo Show (11), que va afegir una pantalla a l'altaveu intel·ligent bàsic d'Echo. Això amplia molt la funcionalitat de l'equip. Tanmateix, l'Echo Show encara és molt menys capaç de realitzar les funcions bàsiques que fa temps que estan disponibles en telèfons intel·ligents i tauletes. No pot (encara) navegar per la web, mostrar ressenyes o mostrar el contingut d'un carretó de la compra d'Amazon, per exemple.

Una pantalla visual és inherentment una manera més eficaç de proporcionar a la gent una gran quantitat d'informació que no pas només so. Dissenyar amb prioritat de veu pot millorar molt la interacció de veu, però a la llarga, no utilitzar el menú visual de manera arbitrària pel bé de la interacció serà com lluitar amb una mà lligada a l'esquena. A causa de la complexitat imminent de les interfícies de veu i visualització intel·ligents d'extrem a extrem, els desenvolupadors haurien de considerar seriosament un enfocament híbrid de les interfícies.

L'augment de l'eficiència i la velocitat dels sistemes de generació i reconeixement de la parla ha permès utilitzar-los en aplicacions i àrees com, per exemple:

• militars (comandaments de veu en avions o helicòpters, per exemple, F16 VISTA),

• transcripció automàtica de text (de veu a text),

• sistemes d'informació interactius (Prime Speech, portals de veu),

• dispositius mòbils (telèfons, telèfons intel·ligents, tauletes),

• robòtica (Cleverbot - sistemes ASR combinats amb intel·ligència artificial),

• automoció (control mans lliures dels components del cotxe, com ara Blue & Me),

• aplicacions domèstiques (sistemes domèstics intel·ligents).

Compte amb la seguretat!

L'automoció, els electrodomèstics, els sistemes de calefacció/refrigeració i de seguretat per a la llar i una gran quantitat d'electrodomèstics estan començant a utilitzar interfícies de veu, sovint basades en IA. En aquesta etapa, s'envien les dades obtingudes a partir de milions de converses amb màquines núvols informàtics. És evident que els venedors estan interessats en ells. I no només ells.

Un informe recent d'experts en seguretat de Symantec recomana que els usuaris d'ordres de veu no controlin les funcions de seguretat, com ara els panys de les portes, i molt menys els sistemes de seguretat de la llar. El mateix passa amb l'emmagatzematge de contrasenyes o informació confidencial. La seguretat de la intel·ligència artificial i els productes intel·ligents encara no s'ha estudiat prou.

Quan els dispositius de tota la llar escolten cada paraula, el risc de piratejar i fer un mal ús del sistema esdevé un problema extremadament important. Si un atacant accedeix a la xarxa local o a les adreces de correu electrònic associades, la configuració del dispositiu intel·ligent es pot canviar o restablir a la configuració de fàbrica, cosa que comportarà la pèrdua d'informació valuosa i la supressió de l'historial de l'usuari.

En altres paraules, els professionals de la seguretat temen que la IA i la VUI impulsades per veu encara no siguin prou intel·ligents per protegir-nos de possibles amenaces i mantenir la boca tancada quan un desconegut demana alguna cosa.