Estudios recientes ponen en duda la eficacia de IA Gemini de Google, revelando limitaciones en el análisis de datos complejos.
Google ha promocionado intensamente su inteligencia artificial (IA) generativa, Gemini 1.5 Pro y 1.5 Flash, enfatizando su habilidad para manejar y analizar volúmenes masivos de datos en tareas de alta complejidad; no obstante, estudios recientes sugieren que estos modelos podrían no estar a la altura de las expectativas planteadas en su eficacia.
Los modelos Gemini de Google muestran deficiencias al responder interrogantes sobre extensos conjuntos de datos, con una tasa de respuestas acertadas que oscila entre el 40 y 50 por ciento.
A pesar de su capacidad para procesar grandes cantidades de contexto, los modelos a menudo no logran comprender el contenido a fondo.
Marzena Karpinska, postdoctorada en UMass Amherst, colaboró con colegas del Instituto Allen de IA y Princeton para evaluar la precisión de la IA de Google.
En Duda Eficacia de la IA Gemini
El equipo desafió a los modelos con declaraciones verdadero/falso sobre obras de ficción contemporáneas en inglés, incluyendo detalles y elementos de la trama que requerían una comprensión completa de los libros.
El modelo 1.5 Pro acertó en un 46,7% de las ocasiones, mientras que Flash solo tuvo un 20% de acierto.
“Hemos notado que los modelos tienen más dificultades para verificar afirmaciones que requieren considerar porciones más grandes del libro, o incluso el libro completo, en comparación con afirmaciones que pueden resolverse recuperando evidencia a nivel de oración”, comenta Karpinska.
También destaca que “cualitativamente, también observamos que los modelos tienen dificultades para verificar afirmaciones sobre información implícita que es clara para un lector humano, pero que no se expresa explícitamente en el texto”.
IA Generativa
Otro estudio, efectuado por especialistas de UC Santa Bárbara, examinó la habilidad de Gemini 1.5 Flash para responder cuestionamientos basados en un video.
Los especialistas generaron un conjunto de imágenes y preguntas relacionadas, desafiando al modelo a identificar los objetos en las imágenes.
Flash logró una transcripción correcta en aproximadamente el 50% de las veces, pero su rendimiento disminuyó a un 30% cuando se incrementó la cantidad de distracciones visuales.
La IA generativa, en general, ha sido objeto de escepticismo, impactando negativamente en las ganancias de la industria, que han visto una caída del 76%, según datos de Pitchbook.
Google ha lanzado estas dos versiones de Gemini con el objetivo de impulsar el resurgimiento de la IA generativa y superar a la competencia.
Sin embargo, estos productos podrían haber sido lanzados prematuramente o tal vez se han exagerado sus capacidades.