La búsqueda de Google ha cambiado mucho en un año, si hablamos de España, y en dos desde el lanzamiento en Estados Unidos de las AI Overviews o Vistas creadas con IA. Ya es habitual encontrarse con respuestas generadas por IA encabezando el tradicional listado de resultados orgánicos. Sabemos que los modelos de IA cometen errores y las empresas que están detrás de ellos no dejan de recordarlo como descargo de responsabilidad, pero la comodidad que ofrece tener la respuesta a lo que se busca masticadita convence a muchos usuarios. Ahora, ¿cuánto se equivoca la búsqueda de Google en sus respuestas con IA?. The New York Times ha publicado un análisis en el que evalúa la precisión de AI Overviews y concluye que acierta el 90 por ciento de las veces. Se equivoca, por tanto, en una de cada diez respuestas, que puede parecer poco hasta que se echa un vistazo a las cifras globales del buscador. El medio cifra en cinco billones las búsquedas que se realizan anualmente. Ese 10 por ciento de respuestas erróneas supone un total de 500.000 millones al año. Es decir, 1.369 millones cada día y 57 millones cada hora. No parece una cantidad despreciable.. The New York Times realizó este análisis con la ayuda de una startup llamada Oumi, que participa en el desarrollo de modelos de IA. La empresa utilizó para la evaluación una herramienta llamada SimpleQA, una prueba que se emplea habitualmente para clasificar la fiabilidad factual de modelos generativos como Gemini, la IA detrás de AI Overviews. SimpleQA, publicada en 2024 por OpenAI, consiste en una lista de más de 4.000 preguntas con respuestas verificables que pueden introducirse en una IA.. Oumi empezó a ejecutar la prueba el año pasado, cuando Gemini 2.5 era el mejor modelo de la compañía. En aquel momento, el benchmark mostraba una tasa de precisión del 85 por ciento. Cuando la prueba se repitió tras la actualización del buscador a Gemini 3, AI Overviews respondió correctamente al 91 por ciento de las preguntas.. El informe incluye ejemplos en los que AI Overviews falló. Cuando se le preguntó la fecha en la que la antigua casa de Bob Marley se convirtió en museo, citó en la respuesta tres páginas, dos de las cuales ni siquiera mencionaban la fecha. La última, Wikipedia, incluía dos años contradictorios y AI Overviews eligió el incorrecto.. El benchmark también pide a los modelos que indiquen la fecha en la que Yo Yo Ma fue incorporado al Salón de la Fama de la Música Clásica. Aunque AI Overviews citó la web de la organización donde figuraba la incorporación de Ma, afirmó que no existe nada llamado Salón de la Fama de la Música Clásica.. Google, como era de esperar, disiente de estos resultados. Ned Adriance, portavoz de la compañía, dijo a The New York Times que SimpleQA contiene información incorrecta. Google evalúa sus modelos usando una prueba similar llamada SimpleQA Verified, que utiliza un conjunto más reducido de preguntas revisadas, supuestamente, con mayor rigor. ‘Este estudio tiene fallos graves. No refleja lo que la gente busca realmente en Google’, afirmó al medio.. La compañía ha explicado que detrás de AI Overviews no hay un único modelo, sino que utiliza el ‘adecuado’ para cada consulta. Aunque la búsqueda daría mejores respuestas si ejecutara siempre Gemini 3.1 Pro, eso terminaría resultando demasiado lento y caro. Para cargar con rapidez en una página de búsqueda, la vista general utiliza modelos Gemini Flash, más rápidos pero menos precisos, cuando es posible y todo apunta a que eso ocurre la mayor parte del tiempo. Así que la conclusión acerca de si es fiable AI Overviews es que depende de la suerte que tengas.
The New York Times sitúa la precisión de AI Overviews en el 90 por ciento, un margen de error que, llevado a la escala de Google, se traduce en decenas de millones de fallos cada hora
La búsqueda de Google ha cambiado mucho en un año, si hablamos de España, y en dos desde el lanzamiento en Estados Unidos de las AI Overviews o Vistas creadas con IA. Ya es habitual encontrarse con respuestas generadas por IA encabezando el tradicional listado de resultados orgánicos. Sabemos que los modelos de IA cometen errores y las empresas que están detrás de ellos no dejan de recordarlo como descargo de responsabilidad, pero la comodidad que ofrece tener la respuesta a lo que se busca masticadita convence a muchos usuarios. Ahora, ¿cuánto se equivoca la búsqueda de Google en sus respuestas con IA?. The New York Times ha publicado un análisis en el que evalúa la precisión de AI Overviews y concluye que acierta el 90 por ciento de las veces. Se equivoca, por tanto, en una de cada diez respuestas, que puede parecer poco hasta que se echa un vistazo a las cifras globales del buscador. El medio cifra en cinco billones las búsquedas que se realizan anualmente. Ese 10 por ciento de respuestas erróneas supone un total de 500.000 millones al año. Es decir, 1.369 millones cada día y 57 millones cada hora. No parece una cantidad despreciable.. The New York Times realizó este análisis con la ayuda de una startup llamada Oumi, que participa en el desarrollo de modelos de IA. La empresa utilizó para la evaluación una herramienta llamada SimpleQA, una prueba que se emplea habitualmente para clasificar la fiabilidad factual de modelos generativos como Gemini, la IA detrás de AI Overviews. SimpleQA, publicada en 2024 por OpenAI, consiste en una lista de más de 4.000 preguntas con respuestas verificables que pueden introducirse en una IA.. Oumi empezó a ejecutar la prueba el año pasado, cuando Gemini 2.5 era el mejor modelo de la compañía. En aquel momento, el benchmark mostraba una tasa de precisión del 85 por ciento. Cuando la prueba se repitió tras la actualización del buscador a Gemini 3, AI Overviews respondió correctamente al 91 por ciento de las preguntas.. El informe incluye ejemplos en los que AI Overviews falló. Cuando se le preguntó la fecha en la que la antigua casa de Bob Marley se convirtió en museo, citó en la respuesta tres páginas, dos de las cuales ni siquiera mencionaban la fecha. La última, Wikipedia, incluía dos años contradictorios y AI Overviews eligió el incorrecto.. El benchmark también pide a los modelos que indiquen la fecha en la que Yo Yo Ma fue incorporado al Salón de la Fama de la Música Clásica. Aunque AI Overviews citó la web de la organización donde figuraba la incorporación de Ma, afirmó que no existe nada llamado Salón de la Fama de la Música Clásica.. Google, como era de esperar, disiente de estos resultados. Ned Adriance, portavoz de la compañía, dijo a The New York Times que SimpleQA contiene información incorrecta. Google evalúa sus modelos usando una prueba similar llamada SimpleQA Verified, que utiliza un conjunto más reducido de preguntas revisadas, supuestamente, con mayor rigor. ‘Este estudio tiene fallos graves. No refleja lo que la gente busca realmente en Google’, afirmó al medio.. La compañía ha explicado que detrás de AI Overviews no hay un único modelo, sino que utiliza el ‘adecuado’ para cada consulta. Aunque la búsqueda daría mejores respuestas si ejecutara siempre Gemini 3.1 Pro, eso terminaría resultando demasiado lento y caro. Para cargar con rapidez en una página de búsqueda, la vista general utiliza modelos Gemini Flash, más rápidos pero menos precisos, cuando es posible y todo apunta a que eso ocurre la mayor parte del tiempo. Así que la conclusión acerca de si es fiable AI Overviews es que depende de la suerte que tengas.
Noticias de Tecnología y Videojuegos en La Razón
