Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
Physical Address
304 North Cardinal St.
Dorchester Center, MA 02124
El Instituto Tecnológico de Massachusetts (MIT) está desarrollando un sistema llamado StableRep para entrenar modelos de aprendizaje automático utilizando imágenes sintéticas. Este enfoque utiliza el aprendizaje contrastivo multipositivo, que considera múltiples imágenes generadas a partir de mensajes de texto idénticos. Estas imágenes proporcionan información adicional durante el entrenamiento, agregando diversidad y especificando qué imágenes son similares y cuáles son diferentes. Además, el sistema ajusta la escala de orientación en el modelo generativo para equilibrar la diversidad y la fidelidad de las imágenes sintéticas.
El equipo de investigadores del MIT ha creado una variante mejorada del sistema llamada StableRep+. Esta versión incorpora la supervisión del idioma a la mezcla, logrando una mayor precisión y eficiencia en comparación con los modelos entrenados con imágenes reales. Al entrenar StableRep+ con 20 millones de imágenes sintéticas, se obtienen resultados superiores a los modelos entrenados con 50 millones de imágenes reales. Sin embargo, el sistema presenta limitaciones como la lentitud en la generación de imágenes, desajustes semánticos y posibles sesgos en los datos utilizados.
A pesar de las ventajas que ofrece el uso de imágenes sintéticas en el entrenamiento de modelos de aprendizaje automático, existen desafíos y preocupaciones que deben abordarse. Por un lado, el proceso de generación de imágenes puede ser lento y los resultados pueden presentar desajustes semánticos con respecto a las indicaciones de texto. Además, existe la posibilidad de amplificar sesgos ocultos en los datos no seleccionados utilizados para la síntesis de imágenes. Por otro lado, el sistema StableRep requiere entrenar primero el modelo generativo con datos reales a gran escala, lo que plantea la necesidad de contar con una buena colección de imágenes reales. A pesar de estas limitaciones, el uso de imágenes sintéticas en el entrenamiento de modelos de aprendizaje automático muestra resultados prometedores y puede reducir la dependencia de grandes colecciones de imágenes reales.