I+D+BIT Audiovisual pone en valor los más destacados proyectos de investigación en el sector audiovisual

27/04/2018

Con el objetivo de dar a conocer proyectos de investigación y desarrollo, tanto del ámbito universitario como empresarial, que desarrollan tecnologías, con alto valor añadido y potencial de crecimiento aplicadas a la industria audiovisual, la próxima edición de BIT Audiovisual, Salón Profesional de la Tecnología Audiovisual, que organiza IFEMA entre los días 8 al 10 de mayo, presenta la 2ª edición de I+D+BIT Audiovisual.

Un Comité de Selección, presidido por Pere Vila, director de Tecnología, Innovación y Sistemas de RTVE Corporación, ha valorado estos proyectos de investigación presentados tanto por universidades, entidades y empresas en virtud de su aporte en cuanto a la oportunidad de la investigación llevada a cabo; su capacidad de influir en el futuro desarrollo de la industria audiovisual; su potencial de aplicación; la originalidad de su enfoque, método u objeto; y la capacidad de reunir y generar colaboración entre distintos actores interesados.

La Universidad Europea Miguel de Cervantes ha presentado el proyecto Voxel3d destinado a sentar las bases de una narrativa interactiva basada en la generación de imágenes tridimensionales con movimiento. La finalidad de este proyecto es partiendo de la experiencia de gigantes del sector como Intel y Microsoft desarrollar sistemas para recomponer cualquier tipo de situación con grabaciones y elementos, rodando independientemente los ingredientes de la producción para, con posterioridad, integrar la escena en un entorno virtual.

El proyecto tendría su aplicación en producciones audiovisuales y contenidos digitales, especialmente para cine, televisión, Internet y videojuegos.

Por otro lado, tres empresas españolas (Brainstorm, MR Factory y SDI) se han unido para investigar sobre la previsualización hiperrealista en tiempo real en entornos broadcast y cine.

Las primeras aplicaciones de este proyecto pudimos verlas por vez primera en el stand de Brainstorm en la feria NAB 2018 (Las Vegas) y ahora, con motivo de BIT Audiovisual, SDI hará demostraciones en su stand.

El proyecto se basa en la capacidad de generar escenas hiperrealistas en tiempo real como previsualización en cine 4K y 8K y como resultado final para HDTV y 4K en broadcast. Aunque la tecnología de chroma key y los estudios virtuales llevan mucho tiempo entre nosotros, estos últimos han sido en ocasiones criticados por la relativa falta de realismo comparados con otras aplicaciones no en tiempo real, como las tecnologías composición y VFX. No obstante, los estudios virtuales exigen tecnología de tiempo real, con lo que las exigencias de potencia de cálculo son importantes si queremos aumentar el realismo de las escenas y la complejidad de su renderizado.

En NAB 2017 Brainstorm presentó su propuesta de Combined Render Engine, una nueva tecnología que permite combinar el motor de render eStudio, el referente para gráficos 3D broadcast y estudios virtuales en tiempo real, y Unreal Engine de Epic Games, un avanzado motor de render para juegos que permite una excelente calidad de imagen hiperrealista.

MR Factory ha desarrollado un workflow para previsualización de tomas de VFX para cine, que utiliza el Combined Render Engine de Brainstorm para garantizar la calidad de las tomas antes de entrar en postproducción. La posibilidad de utilizar InfinitySet como hub de previsualización en HDTV o incluso en 4K, gracias al Combined Render Engine, permite utilizar esta tecnología para obtener un ahorro sustancial de costes de rodaje y postproducción, al garantizar el ajuste de las diferentes tomas (chroma, movimientos de cámara, ajuste de tracking sobre el background…). Una vez ajustado todo en previsualización, InfinitySet es capaz de exportar los datos de cámara, tracking y movimientos del set para entrar en postproducción en resolución 8K con todas las garantías de calidad.

Nokia España concurre a este I+D+BIT con un proyecto que pretende la optimización de la codificación de vídeo para su distribución por Internet, especialmente para dispositivos móviles. Sus investigaciones buscan reducir el ancho de banda usado en la distribución de vídeo, ayudando en la rentabilidad de este negocio. Los estudios se apoyan en un análisis del impacto de la resolución y la calidad de vídeo en dispositivos móviles que ha sido realizado en colaboración con la Universidad Politécnica de Madrid.

La Universidad Politécnica de Cataluña (UPC) y la Escuela de Ingeniería de Telecomunicación y Aeroespacial de Castelldefels (EETAC) trabajan en un interesante proyecto para desarrollar un prototipo de un controlador SDN (Software Defined Networking) para redes TSN (Time Sensitive Networking) en régimen open software y cederlo a la comunidad de desarrolladores para que lo mejore y amplíe en el futuro. Esto permitirá que los operadores de TV (y otras industrias) aprovechen el código, y fomentará la innovación y desarrollo de software libre relacionado con la industria audiovisual, tal como fomenta EBU en su iniciativa Open Source Community.

La tecnología SDI usada en producción de televisión (señal de video sin comprimir transportada sobre un circuito digital -cable coaxial o fibra-) será próximamente reemplazada por tecnología Ethernet/IP (conmutación de paquetes), y específicamente por los protocolos AVB/TSN (Audio/Video Bridging, Time Sensitive Networking) que el IEEE está estandarizando en el Working Group 802.1. Básicamente es una Ethernet síncrona basada en ranuras temporales y reloj PTP/IEEE 1588. Esto permitirá ahorros notables en el coste de instalación y operación de los equipos de producción de TV, así como un incremento en la flexibilidad de las operaciones. Otros grupos como el Joint Team on Networked Media (JT-NM) impulsado por EBU, SMPTE y VSF están desarrollando arquitecturas All-Ethernet&IP en la misma línea, e incluso prevén la virtualización completa de la producción de TV y la introducción de cloud computing . Aparte del caso de uso de producción de TV, TSN tiene también mucho futuro en áreas como industria 4.0, o buses de comunicación en vehículos/trenes/aviones.

Por otro lado, en el mundo de las redes IP se está viviendo un importante cambio tecnológico en el área de la gestión y el control de los dispositivos, pasando del modelo tradicional distribuido (en el que los routers y conmutadores tenían un cierto nivel de inteligencia y cooperan entre sí) al modelo Software-Defined Networking (SDN), en el que la inteligencia de los dispositivos se concentra en un controlador, y los equipos se vuelven “esclavos tontos” que ejecutan lo que les pide el controlador. Esto permite que los controladores tengan una visión global del estado de la red (dispositivos, distribución del tráfico transportado, problemas, etc) y pueda realizar fácilmente optimizaciones (balance de carga, optimización de rutas, duplicación y protección de flujos) que son difíciles de realizar en la arquitectura distribuida.

La introducción de SDN para la gestión de redes AVB/TSN supondrá una mejora notable, por lo que el IEEE ya lo está definiendo en el estándar 802.1Qcc, en desarrollo. 802.1Qcc define dos niveles de controlador (CUC, Centralized User Configuration) y CNC (Centralized Network Configuration) y los interfaces entre ellos y los equipos de red, basados en mensajes RESTconf sobre HTTP y modelos de datos YANG.

Laboratorio Hipermedia y la Universidad Carlos III de Madrid han presentado a esta edición de I+D+BIT el proyecto Azor que pretende implantar una solución integral de captura y edición de vídeo multicámara a través de tecnología wireless. Aunque existían avances tecnológicos para transmitir la señal de vídeo sin cables, no había una solución que permitiese realizar la captura de varias señales de vídeo a la misma vez a través de una conexión inalámbrica y que permitiese la edición simultánea de todas las señales.

Azor se concibe como un novedoso estudio de televisión portátil con funcionalidades avanzadas basadas en tecnologías de visión artificial y aprendizaje máquina. Consta de un programa de captura de vídeo sincronizada y multicaptura (hasta 8-10 cámaras conectadas a la vez) basado en un programa informático conectado a varias cámaras por control remoto

Una de las principales oportunidades de la investigación es la implantación del sistema de videoarbitraje VAR (árbitro asistente de vídeo) en diferentes ligas (Italia, Alemania…) y en torneos de alcance mundial (Mundiales de Clubes 2016 y 2017, Mundial Sub-20). El empleo de este sistema en el próximo Mundial de Rusia es una señal de que el sistema se ha implantado de manera sólida en el arbitraje de fútbol.

Además, la llegada de este sistema implica la aparición de nuevas necesidades de formación en el arbitraje, entre ellas la familiarización con el análisis de situaciones de partido desde diferentes puntos de vista por parte de diferentes niveles y generaciones de árbitros.

El sistema Azor constituye una herramienta para analizar situaciones de juego en un entrenamiento a partir de cuatro cámaras (aunque el sistema puede ser escalable y adaptado al uso de más cámaras distribuidas en diferentes puntos del campo de entrenamiento). Asimismo, el sistema cuenta con una serie de funciones que facilitan el análisis de jugadas, como el sistema de etiquetado, que permite el análisis en diferido de un fragmento concreto de la situación de juego grabada en vídeo. El etiquetado por situaciones permite agilizar el análisis y aporta información para realizar estadísticas.

Finalmente, el sistema permite la captura de vídeo a partir de dispositivos inalámbricos, lo que a su vez permite que el sistema sea sencillo y rápido de instalar, sin cableado que pueda interferir en los movimientos de los árbitros.

Adicionalmente, el sistema puede emplearse para la grabación de eventos que requieran de una realización multicámara (conferencias, seminarios...) pero sin la necesidad de destinar grandes recursos tanto técnicos como personales para llevarlo a cabo.

La Universidad Carlos III ha presentado también, en este caso en solitario, el proyecto GoAll-PervasiveSUB concebido para proveer la accesibilidad a personas sordociegas. La sordo-ceguera se considera una de las discapacidades más severa del mundo, debido que a la hora de comunicarse es mucho más complicado y genera como consecuencia el aislamiento, por ello se considera oportuno el uso de este software. La mayoría de estas personas no salen solas debido al alto riesgo que corren, por ellos la gran parte de estas precisan de un intérprete para poder desenvolverse en su día a día. Hay que tener en cuenta también que al no poder ver ni oír, su forma de comunicarse es mediante el tacto, en lo cual la sociedad no está prepara para interaccionar de una forma efectiva y afectiva con ellas por ese motivo se considera un método pertinente.

Es un proyecto pionero a nivel mundial con una metodología centrada en la investigación y desarrollo tecnológico. El software se encarga de extraer subtítulos de los canales de la televisión enviándolos a un servidor central, desde donde se reenvían a los smartphones o tabletas. La persona con sordo-ceguera lo único que tiene que hacer es conectarse con la aplicación denominada GoAll al servidor central y elegir la cadena a la que desea acceder; de este modo la aplicación se encargara de enviar los subtítulos a la línea braille.

Considerando que esta población no tiene la misma capacidad de lectura que una persona sin discapacidad, se ha configurado el sistema para que pueda ir pasando los subtítulos de una forma más lenta. También hay que tener en cuenta que las líneas braille no son todas iguales, por ello la solución fue trocear los subtítulos para que se estos se vayan enviando de acuerdo con los caracteres de que disponga la línea. Esta tecnología ha permitido a personas con esta discapacidad poder realizar actividades que antes no podían o necesitaban de ayuda para poder llevarlas a cabo, como lo es el saber las noticias del día a día.

Se estima que el número de personas sordociegas en España oscila entre 7.000 y las 100.000, siendo un grupo muy heterogéneo con diferentes tipos y grados de perdida visual y auditiva que, sin duda, se beneficiarán de iniciativas como esta.

Ugiat Technologies concurre a I+D+BIT con el proyecto AutoFace (Politics) que monitoriza diversas cadenas de televisión y descubrir, de forma totalmente automática, los nombres de los diferentes personajes que aparecen, realizando estadísticas sobre su tiempo de aparición y las emociones que expresan.

El sistema se implementa combinando un análisis multimodal que integra audio, video e imágenes. El video se utiliza para extraer imágenes clave que posteriormente son analizadas para detectar caras de personajes y los posibles textos de gráficos que aparezcan en las imágenes. A su vez, con el audio se aplica un sistema de conversión de voz a texto.

Posteriormente, sobre las caras detectadas, se aplican algoritmos de reconocimiento facial basados en Deep Learning que agrupan los diferentes individuos en ‘clusters’. También se aplica otra Red Neuronal Convolucional para reconocer el estado anímico del personaje, clasificando entre 7 emociones diferentes (neutral, felicidad, enfado, tristeza, sorpresa, miedo, disgusto). Finalmente, aplicando técnicas de inteligencia artificial se deben asociar los nombres de los personajes que aparecerán en los gráficos o en los diálogos con los clústeres generados por el sistema de reconocimiento facial.

Para ello, Ugiat ha diseñado un sistema preliminar que captura los diferentes programas de noticias de las principales cadenas de televisión en España: RTVE, Antena 3, Telecinco, Cuatro, La Sexta, TV3; analizando una imagen cada segundo y reconociendo los principales políticos, obteniendo estadísticas de sus tiempos de aparición. El sistema analiza unos 2 millones de imágenes cada mes.

Todos los algoritmos de deep learning utilizados para la detección y reconocimiento facial, la detección de emociones, la detección de gráficos y la inteligencia artificial para vincular personajes con nombres han sido desarrollados en Ugiat Technologies, una spin-off de la Universidad Politécnica de Cataluña. La conversión de voz a texto se realiza utilizando software de terceros.

La autocatalogación de contenidos y la extracción automática de metadatos está teniendo cada vez más importancia en diferentes áreas de la industria audiovisual. En producción de contenidos, el etiquetado del material en bruto proporciona una gran ayuda para una edición más eficiente. En sistemas de recomendación los metadatos audiovisuales extraídos pueden utilizarse para mejorar las predicciones del sistema, que actualmente se basan exclusivamente en información de tipo textual sobre las características del contenido. Con el análisis automático de metadatos pueden detectarse no solo actores sino también productos, marcas comerciales, colores, movimientos, tipos de escenas… que proporcionan un big data muy importante para obtener perfiles de usuario. Además, los metadatos obtenidos pueden usarse para enriquecer la experiencia de usuario, interaccionando con el cliente para una navegación más eficiente (repetir frases, escenas) o con mayor contenido descriptivo (actores, canciones, productos…).

La Fundación i2CAT concurre a este I+D+BIT con tres proyectos Por una parte, está inmersa en el desarrollo de ImmersiaTV que persigue la creación de nuevos formatos de producción, distribución y consumo de contenidos TV para posibilitar experiencias inmersivas y personalizables. El objetivo no sólo radica en ofrecer un soporte eficiente para escenarios multi-pantalla, sino en conseguir una integración transparente entre contenidos tradicionales y contenidos omnidireccionales (como video 360º y audio espacial), abriendo así la puerta a nuevos escenarios fascinantes. El proyecto engloba investigación en aspectos tecnológicos, creativos y de experiencia de usuario.

El proyecto aporta beneficios a lo largo de toda la cadena audiovisual extremo-a-extremo ya que ofrece nuevas soluciones y herramientas para la captura, producción y edición de contenidos omnidireccionales (por ejemplo como plugin de Adobe Premiere Pro) o escenas combinando videos 360º con contenidos gráficos y vídeos convencionales (a través de portales u “overlays”), con transiciones y efectos apropiados; así como nuevas soluciones para la señalización de servicios inmersivos, su vinculación con contenidos broadcast tradicionales (como HbbTV) y para su distribución adaptativa vía broadband (teniendo en cuenta heterogeneidad de los dispositivos de consumo y regiones de interés para vídeos 360º) y su reproducción sincronizada. También abre la puerta a nuevas plataformas de consumo para contenidos omnidireccionales, tanto basadas en Unity3D como en componentes web, con soporte para escenarios multi-pantalla.

Otro de los proyectos en los que está inmersa la Fundación i2CAT es ImAc (Immersive Accessibility) que busca garantizar la accesibilidad en servicios multimedia immersivos, incluyendo video 360º, audio espacial y contenidos de Realidad Virtual (RV). Esto permitirá proporcionar una narrativa adecuada, un mayor y mejor acceso a la información y usabilidad, independientemente de las capacidades sensoriales y cognitivas de los usuarios, su edad, idioma, así como otras dificultades o deficiencias. Entre los servicios de accesibilidad a proporcionar, se incluyen: subtítulos, audio subtítulos, audio descripción y vídeos con intérpretes de lengua de signos, además de interfaces de usuario y tecnologías de apoyo apropiadas. La idea es que las funcionalidades de inmersividad y accesibilidad sea adaptativas en función de las necesidades y/o preferencia de los usuarios, así que como sean compatibles con las tecnologías y formatos utilizados comúnmente en el sector audiovisual.

La Fundación i2CAT también ha presentado a este I+D+BIT el proyecto VR-Together, cuyo principal objetivo es posibilitar experiencias de Realidad Virtual (VR) que permitan una interacción social natural entre usuarios remotos inmersos en entornos virtuales comunes, desde entornos domésticos, de manera asequible y con una calidad foto-realista.

Este proyecto pionero proyecto engloba el ensamblaje de una plataforma extremo-a-extremo utilizando tecnologías software y componentes hardware comerciales (low-cost) de última generación. Por otro lado, el proyecto persigue el diseño de soluciones innovadoras y optimizaciones para varios aspectos tecnológicos y creativos esenciales en diferentes etapas y procesos de la plataforma extremo-a-extremo, incluyendo: captura, codificación, procesado, distribución y consumo. En todo momento considera las tecnologías e infraestructuras existentes, proponiendo mejores y/o extensiones que sean tanto backward- como standard-compliant. Además, el proyecto sigue una metodología en la que los usuarios son protagonistas en cada proceso del mismo (user-centric methodology), ya sean usuarios finales, profesionales o agentes interesados, con tal de obtener con precisión los requisitos necesarios y de validar los resultados obtenidos.

En varios países se está realizando o se va a realizar el apagado de la televisión analógica o la transición de la televisión digital de primera generación (DVB-T) a la de segunda generación (DVB-T2), por lo que pueden convivir hasta tres tipos de señales de televisión en las mismas bandas del espectro radioeléctrico. En ocasiones es conveniente poder distinguir el tipo de señal o algunos de sus parámetros básicos a la hora de adecuar las instalaciones de recepción de televisión o para monitorizar el despliegue de las redes de difusión. Por ello, Gradiant (Centro Tecnológico de Telecomunicaciones de Galicia) ha desarrollado un proyecto que tiene en cuenta que muchos equipos de medida incorporan chips receptores completos simplemente para obtener la información que necesitan de tipo de señal de televisión y sus parámetros básicos, lo que encarece dichos equipos y no permite una actualización frente a posibles variantes futuras o nuevos estándares de difusión de televisión.

La solución propuesta basada en algoritmos computacionalmente sencillos, realizados en software o lógica reconfigurable, utiliza recursos lógicos ya disponibles en los equipos de medida con un coste incremental muy reducido y puede adaptarse a variaciones futuras de los estándares de difusión de televisión.

Uno de los proyectos presentados a I+D+BIT en el que participan más empresas es EasyTV (Easing the access of Europeans with disabilities to converging media and content). En su investigación trabajan Universidad Politécnica de Madrid (UPM, España), Engineering Ingegneria Informatica SPA (ENG, Italia), Centre for Research and Technology Hellas (CERTH, Grecia), Mediavoice SRL (MV, Italia), Universitat Autònoma Barcelona (UAB, España), Corporació Catalana de Mitjans Audiovisuals SA (CCMA, España), ARX.NET S.A. (ARX, Grecia), Sezione Provinciale di Roma dellUnione Italiana dei ciechi e degli ipovedenti (UICI, Italia), y la Fundación Confederación Nacional Sordos España para la supresión de barreras de comunicación (FCNSE, España).

El objeto del proyecto EasyTV es facilitar el acceso de las personas con discapacidad sensorial (auditiva/visual) a los productos y servicios de primera línea de la sociedad de la información y las telecomunicaciones para que puedan disfrutar de los contenidos audiovisuales al mismo nivel que el resto de la población, evitando la marginación y la problemática creada por la desigualdad existente en el acceso a la información. Por ello, el proyecto plantea el diseño e implementación de una plataforma que presenta una colección de soluciones tecnológicas que permiten la mejora de la accesibilidad en términos de subtitulado avanzado, creación de audionarrativas automáticas, clean-audio, vídeos de lengua de signos configurables, audiosubtítulos o magnificación de imagen, entre otros, que permitan romper la barrera linguística existente. Todo ello, en un entorno de personalización, donde el sistema se adapta a las necesidades concretas de cada usuario y a sus preferencias.

Desde el punto de vista tecnológico el proyecto se basa en el análisis del estado del arte de las tecnologías accesibles y en el conocimiento previo adquirido en otros proyectos europeos como HBB4ALL, DTV4ALL, Cloud4ALL o Prosperity4All. Se ofrecerán en el proyecto novedosos servicios de acceso mejorado al contenido audiovisual para aumentar la experiencia del usuario en dos líneas principales: la adaptación de la imagen ofreciendo magnificación e intensificación basada en contenido empleando diversos algoritmos innovadores; descripción de contenido mejorado con narraciones automáticas y mejora en la inteligibilidad del audio; y tecnologías novedosas para romper las barreras de la lengua de signos con una plataforma de crowdsourcing y un traductor interlingüístico.

Todo ello en un entorno de hiper-personalización del contenido donde el usuario recibe recomendaciones acerca de los nuevos servicios disponibles y que le permiten adaptar las diferentes interfaces a sus necesidades. El uso del nuevo estándar de HbbTV dentro de la televisión conectada para la difusión de aplicaciones relacionadas con los canales de televisión permite la interconexión entre dispositivos para ofrecer una mejora en el acceso a la información.

Por último, la empresa Visiona en colaboración con el resto de socios del proyecto 5G-CROSSHAUL han presentado una iniciativa que busca mejorar la evaluación de las tecnologías para la transmisión de vídeo sobre IP. La demanda de nuevos y más eficientes algoritmos de comprobación del estado de la red por parte del usuario y la necesidad de asegurar los requisitos básicos de calidad en la transmisión de contenidos de gran impacto se hace de vital importancia, especialmente teniendo en cuenta que el contenido presenta características cada vez más exigentes, entre ellos, mayor resolución (4K, 8K) o formatos enriquecidos como HDR (High Dynamic Range) y HFR (High Frame Rate).

Por este motivo, uno de los desarrollos realizados en el entorno del proyecto 5G-Crosshaul consiste en una sonda para el análisis de calidad de vídeo, que permita de manera virtualizada conectarse a cualquier nodo de la red de transmisión para comprobar el estado de la misma y evitar que el usuario reciba artefactos y efectos indeseados en el contenido multimedia, ya que la transmisión de una alerta permitiría la reconfiguración inmediata de los nodos de la red para que el usuario reciba el contenido en óptimas condiciones, aumentando así la calidad de la experiencia.

Entre todos estos proyectos, cinco han sido seleccionados para su presentación en el marco del FORO BIT AUDIOVISUAL, (Auditorio Pabellón 7) a los largo de los tres días de feria. Se trata en concreto del Controlador SDN para redes TSN en producción de TV; Azor; GoAll-PervasiveSUB (televisión para sordociegos); EasyTV, y de la iniciativa de Visiona con los socios del proyecto 5G-CROSSHAUL.

I+D+BIT Audiovisual pone en valor los más destacados proyectos de investigación en el sector audiovisual

BUSCADOR

ARCHIVO