Asistentes de voz. ¿Qué hay detrás del telón?

Inteligencia Artificial

,

Machine Learning & Deep Learning

,

Rhinno

Asistentes de voz. ¿Qué hay detrás del telón?

Javier Napolitano | nov 06, 2020

Desde hace un tiempo, es cada vez más común ver cómo somos capaces de interactuar con asistentes de voz a través de diversos medios. Hace unos años, partíamos de las primeras líneas de asistencia telefónica preprogramadas. Sin embargo hoy, contamos con sistemas de lo más sofisticado en nuestro teléfono móvil. El avance que se ha producido en este campo es evidente. 

La evolución que se ha ido produciendo se basa en dos factores determinantes. En primer lugar, el despunte en los últimos años del Big Data debido al aumento de los portales digitales, así como el uso extendido de dispositivos digitales como móviles, tabletas, ordenadores y diversos sistemas con conectividad a Internet.

Con toda esta información disponible pasamos al segundo elemento habilitador, que es el uso de técnicas de aprendizaje automatizado o Machine Learning, las cuales permiten el desarrollo de sistemas capaces de comprender y procesar el lenguaje natural. Todo esto se logra mediante el entrenamiento de los sistemas de aprendizaje automatizado a través de millones de líneas de texto y conversaciones almacenadas y etiquetadas.

Una de las ramas más importantes de la Inteligencia Artificial es la comprensión del lenguaje natural, de tal modo que pueda ser utilizado por los sistemas digitales. Como mencionábamos anteriormente, está desarrollada con técnicas de Machine Learning, en especial las conocidas como redes con memoria.

Estas redes son un caso especial de las redes neuronales, que tienen en cuenta el aprendizaje los elementos o estados del pasado, de tal modo que puedan encontrar el significado de un texto o bien su intención a través de su contenido.

Captura de pantalla 2020-11-06 a las 12.26.16

Uno de los puntos que se suelen usar en la concepción de estos sistemas es la generación de un diccionario de palabras o Corpus que conforma el léxico del sistema. Este Corpus se puede especializar en algunos sistemas con una jerga específica del entorno o el nivel técnico requerido para la situación. Es relevante añadir que el Corpus utilizado puede variar dependiendo del registro usado y el posible significado que pueden dar diversas palabras o expresiones.

La mayoría de los asistentes de voz actuales están desarrollados bajo las premisas previamente descritas, con un entrenamiento basado en una gran cantidad de datos escritos y de grabaciones de audio. Estos asistentes no solamente pueden ser capaces de transcribir el lenguaje hablado o el lenguaje escrito a voz con gran precisión, sino que también pueden dar un significado y una intención al mismo. Sistemas comerciales actualmente conocidos como Siri de Apple, Ok Google, Cortana de Microsoft y Alexa de Amazon, utilizan estas bases para dar sus servicios.

Algunos de estos asistentes de voz tienen una serie de servicios vinculados a su plataforma en la nube, por lo que su uso puede ser extendido a sistemas mucho más elaborados. De esta forma, se amplía el uso de estos dispositivos, que en primera instancia fueron concebidos para un uso exclusivamente doméstico. Se podrán implementar en entornos de fabricación y manufactura para gestionar lotes y pedidos, en el ámbito hotelero para dar un mejor servicio a los clientes, o en el ámbito médico para agilizar los procesos de transcripción de consultas y gestión de perfiles de pacientes.

Como puede apreciarse, los usos que pueden darse a los diversos asistentes de voz son tantos como posibles comandos podamos dar con nuestra voz. De esta forma, se logra que nuestra interacción con las máquinas sea mucho más acelerada e intuitiva al utilizar el lenguaje natural sin necesidad de aprender un lenguaje de programación. Todo esto genera una mejor experiencia de usuario, siendo más natural y fluida. De este modo se logra acercar los sistemas de información a una gran parte de la población, facilitando su uso y consumo.

Desde Techedge, para validar esta tecnología, hemos realizado varias pruebas de concepto, utilizando algunas plataformas de diversos fabricantes para la validación de los conceptos y capacidades disponibles de esta tecnología.

Para la realización de la prueba de concepto, hemos utilizado el dispositivo de Google Home, con el que hemos sido capaces en una primera prueba de establecer una serie de funcionalidades vinculadas a crear eventos e invitar a asistentes en diversos calendarios, pudiendo administrarlos únicamente con comandos de voz y sin necesidad de acceder a ninguna otra aplicación o asistente para poder realizar estas acciones.

Por otro lado, con el dispositivo Echo de Amazon, hemos podido realizar una transcripción y traducción de las conversaciones de un ámbito médico mediante el uso de la plataforma de AWS. De esta forma, hemos sido capaces de realizar una comprensión de las estructuras más importantes de estas conversaciones, pudiendo determinar los medicamentos empleados, las posibles dolencias y las partes del cuerpo a las cuales afectan estas dolencias.

Captura de pantalla 2020-11-06 a las 12.53.19

 

Todo esto hemos podido analizarlo semánticamente para extraer las estructuras de las conversaciones. Estas estructuras, se pueden separar en dos grupos:

  • El primero de ellos consiste en las entidades (Entities), que se refieren a los elementos que dan significado al texto, como por ejemplo los sustantivos. Podemos ver también qué tipo de información llevan asociada.
  • El segundo de los grupos consta de la intención (Intends) del texto, que hace referencia a la acción que pretende dar el texto al receptor. Por ejemplo: saludar, preguntar, afirmar, despedirse, etc.

Estos sistemas también plantean un dilema en cuanto a la privacidad de los usuarios. Se trata de un tema que es especialmente sensible en función de la información manejada, como es el caso de los expedientes clínicos o transcripciones con información relativa a la salud del paciente. Por ello, está claro que dependiendo de la aplicación que se vaya a realizar, ha de poder bloquearse o encriptar el acceso a estos datos generados para asegurar su confidencialidad. Algunos de estos asistentes funcionan como una caja negra, donde no es posible acceder o manipular la información que se genera, asegurando que la información no pueda ser manipulada.

Finalmente, podemos concluir que la versatilidad de estos sistemas es múltiple, acercándonos día a día más a las máquinas inteligentes. Cabe destacar el aumento continuado respecto al soporte e inclusión de más idiomas y acentos de diversas localizaciones del planeta. Todo ello facilita en gran medida las interacciones con diversos sistemas por parte del usuario. Se puede apreciar claramente cómo estas tecnologías son capaces de retroalimentar todos los sistemas de Big Data, obteniendo de esta forma mejores resultados y generando servicios más sofisticados.

¡Suscríbete!