Un problema clásico entre los generadores de imágenes con inteligencia artificial es la anatomía humana. A menos que utilicemos un modelo especialmente optimizado, lo más común es encontrar personas con tres piernas, o manos que tienen siete dedos. El nuevo modelo FLUX.1 de Black Forest Labs acaba de debutar en la Web, y sus resultados ya colocan presión sobre Stable Diffusion…
Stable Diffusion 3 Medium debutó a mediados de junio. Nuestras pruebas en línea no fueron malas, pero a juzgar por los resultados compartidos a través de Reddit, ese lanzamiento dejó mucho que desear. Su punto débil es, sin lugar a dudas, la anatomía humana. Algunos usuarios sugieren que es producto de la censura, pero otros lo atribuyen a una caída general en la calidad del entrenamiento.
De hecho, no son pocos los que estaban esperando una especie de «reemplazo», y parece haber llegado en la forma de Black Forest Labs, una compañía fundada por algunos de los investigadores que desarrollaron la tecnología detrás de Stable Diffusion, e inventaron la técnica de latent diffusion. Su modelo es FLUX.1, está disponible en varias versiones, y entre otras cosas, promete manos humanas reales, sin mutaciones ni dedos de sobra.
Probando a FLUX.1 en línea… antes de que explote
Black Forest Labs busca ofrecer soluciones generativas en imágenes «y» vídeo, por lo tanto, FLUX.1 cuenta con tres versiones / ediciones: «Pro» es la más potente, y destinada a entornos comerciales. «Dev» es el término medio, con weights abiertos compatibles con uso no comercial, y finalmente aparece «Schnell» («rápido» en alemán), pensada para desarrollos locales y personales. Schnell ya es compatible con ComfyUI, y como era de esperarse, la Web explotó.
Algunos servicios en línea como Replace y Fal también funcionan con FLUX.1 pero los entusiastas de la ejecución offline se enfrentan a un modelo Dev de 23 gigabytes. Por supuesto, eso no los ha detenido, y hemos notado muchos casos de éxito en tarjetas gráficas de 12 GB (como la RTX 3060). Si no hay suficiente poder de fuego en nuestro equipo, la mejor opción es tirar los dados en HuggingFace, y aprovechar los spaces hasta que el sitio nos deje en fase de cooldown.
Anuncio oficial: Haz clic aquí
Modelo Schnell en HuggingFace: Haz clic aquí