Nadie quiere ver tus vídeos largos, pero la tecnología quiere resolverlo

Debemos admitirlo: a un lado están los buenos creadores de vídeos, aquellos que consiguen piezas audiovisuales espectaculares que pasaríamos horas viendo, y al otro lado el resto. Porque aunque tengamos los medios de grabación y las plataformas de difusión adecuadas, la mayoría de producciones domésticas —sobre todo en primera persona— no son todo lo interesantes que podrían.

Y si no lo ves así, pregúntate: ¿Cuánto tiempo has perdido viendo vídeos irrelevantes en su mayoría? ¿Cuántos minutos de imágenes has consumido para ver, solo durante unos pocos segundos, aquello realmente interesante? La solución a la democratización del vídeo y su trasfondo anodino pasan por la tecnología.

Un vistazo a…

ZAO, la APP MÓVIL china que a través de DEEPFAKE te convierte en DICAPRIO en SEGUNDOS

La tecnología en busca de las secuencias verdaderamente interesantes

Debido a que la mayoría de los vídeos [en primera persona] están compuestos por largas secuencias sin editar que suelen ser tediosas y desagradables de ver, en la actualidad, [...] se enfrenta el reto de proporcionar un equilibrio adecuado entre la fluidez del flujo visual y el énfasis en las partes pertinentes.

Este es el reto que propone el paper Making a long story short: A Multi-Importance Semantic for Fast-Forwarding Egocentric Videos y su resolución, proponen los investigadores, pasa por un interesante proceso en cinco pasos. Una metodología automática que han llamado "Multi-Importance Semantic FastForward" y quiere acelerar los vídeos egocéntricos con el objetivo de extraer sus partes más importantes.

En primer lugar, debe producirse un análisis semántico de toda la pieza mediante técnicas de identificación como el reconocimiento de caracteres o el reconocimiento facial. Para leer y reconocer cada texto, cada placa de matrícula, cada persona y cada entorno que aparezca en las imágenes.

Con los datos obtenidos se calculan para cada segmento del vídeo diferentes velocidades, siendo más bajas cuanto más relevante sea el contenido.

La intención es acelerar aquellas partes aburridas para enfatizar las de mayor interés

A continuación, entra en juego una red neuronal convolucional, CoolNet. Entrenada con los vídeos presumiblemente más populares, y a priori más interesantes, calificará la frescura de cada fotograma. Esta nueva información se sumará a la anterior y ayudará a ajustar todavía más la velocidad de cada tramo.

Finalmente, los investigadores de este estudio recogido por ZDNet plantean emplear la optimización por nube de partículas para automatizar la selección de diferentes parámetros cualitativos de la grabación y, de nuevo, ajustar las diferentes velocidades asignadas inicialmente.

El resultado debe ser un vídeo con partes aceleradas y otras a velocidad normal que enfatice aquellas secuencias realmente interesantes para un espectador, acortando la duración y asegurando mayor relevancia. Algo así como los retoques fotográficos automáticos de Google Fotos, capaces de realzar instantáneas, o sus pases de fotografías también automáticos, concebidos en formato vídeo sin intervención del usuario. Un procesamiento automático que quiere ir más allá.

En Genbeta | Ampliar imágenes diminutas deja de ser un truco de CSI gracias a las redes neuronales