Un modelo multimodal es un sistema de IA capaz de procesar diferentes tipos de información, como texto, imágenes, audio, video, pantallas, documentos o archivos dentro de una misma interacción.
Para diseño de producto, esto permite crear experiencias más flexibles: analizar screenshots, interpretar documentos, recibir instrucciones por voz, comparar interfaces o generar respuestas a partir de varios formatos de entrada.







