Comunicados de prensa

Mitsubishi Electric desarrolla la tecnología de interacción basada en imágenesInteracción persona-máquina más natural e intuitiva gracias al reconocimiento de imágenes

Este texto es una traducción de la versión oficial en inglés de este comunicado de prensa y se le proporciona a modo de referencia para su comodidad. Consulte el texto original en inglés para obtener detalles específicos. En caso de que ambas versiones difieran, prevalecerá el contenido de la versión en inglés.

PARA SU PUBLICACIÓN INMEDIATA N.º 3365

TOKIO, 22 de julio de 2020 - Mitsubishi Electric Corporation (TOKIO: 6503) ha anunciado hoy la que posiblemente sea, según la propia empresa, la primera tecnología del mundo capaz de interactuar de forma altamente natural e intuitiva con personas, basándose en las imágenes para convertir la información de detección multimodal en lenguaje natural. Esta novedosa tecnología de interacción basada en imágenes incorpora Maisart®*, la tecnología de inteligencia artificial (AI) compacta y patentada de Mitsubishi Electric para analizar información de detección multimodal con el fin de lograr una interacción altamente natural e intuitiva con personas a través de la generación de un lenguaje natural que depende del contexto.

La tecnología reconoce eventos y objetos contextuales a partir de información de detección multimodal, como imágenes y vídeos tomados con cámaras, información de audio grabada con micrófonos e información de localización medida con LiDAR. Con el fin de dar prioridad a estas diferentes categorías de información, Mitsubishi Electric ha desarrollado la tecnología de fusión multimodal de atención, que es capaz de ponderar automáticamente la información unimodal más importante y permite seleccionar las palabras adecuadas para describir imágenes con precisión. En las pruebas de referencia con una serie de pruebas comunes, la tecnología de fusión multimodal de atención utilizaba información audiovisual para lograr una puntuación de la evaluación de la descripción de la imagen basada en el consenso (CIDEr)** que fue un 29 % más alta que en el caso de utilizar solo información visual. Gracias a la combinación de la fusión multimodal de atención de Mitsubishi Electric con la tecnología de reconocimiento de imágenes y la generación de lenguaje natural basado en el contexto, se ha desarrollado un potente sistema de interacción integral basado en imágenes para una interacción altamente intuitiva con los usuarios en diversas situaciones.

  1. * Maisart es la abreviatura de "Mitsubishi Electric's AI creates the State-of-the-ART in technology" (la IA de Mitsubishi Electric crea tecnología innovadora).Maisart
  2. **CIDEr es una métrica de evaluación que mide la similitud de una oración generada frente a un conjunto de oraciones reales escritas por personas, y que otorga importancia a las secuencias de palabras que las personas utilizan con relativa frecuencia.

La interacción basada en imágenes para la navegación de automóviles, una aplicación de destino, proporcionará a los conductores una guía de ruta intuitiva. Por ejemplo, en lugar de indicar al conductor que "gire a la derecha dentro de 50 m", el sistema proporcionaría una guía basada en imágenes, como "gire a la derecha antes del buzón" o "siga a ese coche gris que gira a la derecha". Además, el sistema generará advertencias de voz, como "peatón cruzando la calle", cuando se prevean objetos cercanos que se crucen con la trayectoria del automóvil. Para lograr esta funcionalidad, el sistema analiza las imágenes para identificar puntos de referencia visibles y elementos dinámicos de la imagen que se puedan distinguir y, a continuación, utiliza los objetos y eventos reconocidos para generar oraciones intuitivas que sirvan de guía.

Los últimos avances en el reconocimiento de objetos, la descripción de vídeo, la generación de lenguaje natural y las tecnologías de diálogo oral que utilizan redes neuronales avanzadas permiten que las máquinas entiendan mejor su entorno e interactúen con las personas de forma más natural e intuitiva. Se espera que la tecnología de interacción basada en imágenes tenga una amplia capacidad de aplicación, incluidas las interfaces hombre-máquina para el infoentretenimiento en vehículos, la interacción con robots en sistemas de automatización industrial y de construcción, los sistemas que supervisan la salud y el bienestar de las personas, los sistemas de vigilancia que interpretan imágenes complejas para personas y fomentan la distancia social, la asistencia para el funcionamiento sin contacto del equipo en zonas públicas y mucho más.

Ejemplo de interacción basada en imágenes que proporciona orientación contextual

Ejemplo de interacción basada en imágenes que proporciona orientación para evitar peligros


Nota

Tenga en cuenta que la precisión de los comunicados de prensa corresponde a la fecha de publicación, pero dichos comunicados están sujetos a modificaciones sin previo aviso.


Consultas

Contacto de prensa

Consultas de los clientes