Los generadores de IA evolucionan ante nuestros ojos a un ritmo veloz, pero aún tienen fallas. Detectar detalles extraños en imágenes de IA es bastante divertido. Es por eso que las manos generadas en Midjourney se convirtieron en un tema candente, un problema común en muchos motores.
Analicemos por qué las manos desafían tanto a los generadores de imágenes de IA. Sus programadores ya están solucionando este problema digno de un meme, pero es interesante pensar en cómo aprende la inteligencia artificial, sin mencionar lo que se interpone en su camino.
Por qué las manos generadas por IA causaron revuelo
Cualquiera que use motores de inteligencia artificial para crear imágenes puede haber notado que las manos rara vez salen bien, pero el problema llamó la atención cuando aparecieron un montón de “fotos” en Twitter.En una inspección más cercana, las extrañas manos de las personas los delataron como imágenes generadas por IA. El hecho de que se conociera justo en el auge de Midjourney hizo que la situación fuera más interesante.
Uno de los mejores motores de inteligencia artificial que existen no pudo abordar la complejidad de las manos humanas, por lo que se pusieron a prueba las capacidades de Midjourney y sus competidores. Es cierto que incluso DALL-E es propenso a tener dedos y uñas poco realistas.
La exageración fue desproporcionada, teniendo en cuenta que las manos generadas por IA siempre han sido un problema, pero la atención adicional provocó el lanzamiento de Midjourney v5 para mejorar la v4 .
¿Por qué los generadores de imágenes de IA tienen problemas con las manos?
Los motores de IA utilizan redes antagónicas generativas (GAN) o difusión estable para producir imágenes. Ambas tecnologías requieren una gran cantidad de materiales de origen, capacitación y poder de procesamiento para crear incluso las obras de arte más básicas.Dado que las imágenes preexistentes son fundamentales para el entrenamiento de una IA, los programadores tienen que alimentar su software con miles, sino millones, de imágenes junto con indicaciones, repitiendo el proceso una y otra vez hasta que el motor comprenda a qué se refiere una palabra en particular y cómo representarla ese objeto
Pero las imágenes de origen de las que aprende una IA son principalmente 2D, donde las manos se representan en una variedad de posiciones. Ya sea recto o rizado, mostrando cinco o tres dedos.
Al final del día, una máquina en realidad no comprende el concepto de manos, y las imágenes de las que aprende no siempre muestran manos de manera clara o consistente. Es por eso que las manos de Midjourney pueden ser tan feas, confusión de IA.
Otras razones por las que los generadores de imágenes de IA tardan en mejorar
En cuanto a los modelos de Midjourney, v5 ofrece una coherencia avanzada entre las indicaciones de texto y las imágenes producidas, así como una resolución más alta y herramientas adicionales. Pero tales logros no son baratos.Entrenar a una IA para hacerlo mejor con las manos requiere alimentarla con mejores imágenes, especialmente en 3D. Eso significa que se dedica mucho tiempo y mano de obra a los procesos, desde la adquisición de materiales de origen hasta la mejora de la codificación y la repetición de la capacitación hasta que la IA lo hace bien.
Los generadores de imágenes de IA no lucharán para siempre
Las manos son un concepto complicado para que la inteligencia artificial entienda su cabeza binaria, pero las soluciones al problema ya están funcionando. Midjourney, DALL-E 2 y otras plataformas eventualmente podrán mantener los dedos peculiares al mínimo, si no erradicarlos por completo.Los avances en otros campos de la IA garantizan que la tecnología evolucione constantemente y que sus desarrolladores siempre aprendan nuevas formas de aplicarla y mejorarla.