Hace un mes, abordábamos el caso de Pieter Levels, un emprendedor tecnológico que estaba ganando más de 100.000 dólares al mes gracias a aplicaciones basadas en IA gratuita. Una de esas aplicaciones era Therapist AI, un bot de Telegram que se promociona como "el primer coach de ayuda mental basado en IA disponible las 24 horas del día".
Sin embargo, sólo unos días después de lanzar el artículo, Levels mostró una versión de prueba de una versión más avanzada de Therapist AI, una que en lugar de basarse en la interacción mediante texto, era capaz de establecer una conversación de voz con el usuario recurriendo a un avatar fotorrealista animado.
Vamos, como tener a un terapeuta de verdad a tan sólo una videoconferencia de distancia. El propio Levels ha publicado un vídeo de ejemplo de la experiencia de usar una aplicación así: en dicho vídeo, presenciamos cómo el usuario (él mismo) describe un conflicto reciente con su novia después de que ella cuestionase una decisión de negocios tomada por él...
...y prosigue explicando a Therapist AI que se siente frustrado y atrapado porque cree que ella intenta controlar sus decisiones empresariales. La aplicación le sugiere tener una conversación abierta y honesta con su novia para establecer límites, y animándole que vuelva a contactar con la app si necesita más orientación.
El vídeo permite comprobar que este avatar no sólo habla, sino que también utiliza expresiones faciales y gestos para transmitir empatía y comprensión, haciendo que la conversación se perciba como algo más 'humano'.
Permite visibilizar, además, que los usuarios pueden acceder a la app en cualquier momento y lugar, lo que la convierte en una herramienta valiosa para aquellos que necesitan apoyo emocional inmediato, pero no pueden esperar a una cita con un terapeuta humano.
¿Qué hay detrás de Therapist AI?
Dan O’Leary, un usuario de X, resumía el logro que esto suponía:
"Esto está increíblemente bien hecho para ser el prototipo de una empresa unipersonal, una calidad realmente notable. Dejando de lado sus habilidades como 'terapeuta', imagina las implicaciones de esto dentro de 5 años. Todas las piezas se están uniendo".
El propio creador del invento, destacaba que "se necesita mucha tecnología trabajando conjuntamente para hacer esto posible, y toda tiene que funcionar muy rápido". Pero, ¿de qué tecnología estamos hablando, exactamente?
- Transcripción de voz a texto: Permite convertir en texto la voz del usuario, para introducirla en un chatbot.
- LLM (Modelo de IA generador de texto): La 'mente' detrás del chatbot, capaz de responder (como texto) a las consultas del usuario. Concretamente, usa desde hace poco Llama3-70B (del que Levels, destaca su gran capacidad de recordar datos de una conversación).
- Síntesis de texto a voz: Permite convertir en voz el texto generado por el LLM.
- Generador de vídeo a partir de voz: Una vez sintetizada la voz, esta IA usa una foto de una persona para animarla y hacer que 'hable'.
- FaceTime: Aplicación de videollamadas desarrollada por Apple que permite que el usuario interactúe con el vídeo generado mediante IA.
Imagen | Marcos Merino mediante IA