În ultimii ani, căutarea unor informații pe Google duce la crearea unui rezumat AI, care apare la începutul paginii.
Acesta e Google AI Overviews, bazat pe Gemini, sistem ce a fost lansat în anul 2024, scrie Ars Technica.
De obicei, acesta oferă răspunsurile corecte, cu o precizie de 90%. Dar, chiar și în acest context, 10% înseamnă milioane de răspunsuri greșite pe oră.
Problema a fost identificată în urma unei noi analize realizate de The New York Times.
Răspunsurile Google AI ar da milioane de răspunsuri greșite pe oră
O nouă analiză realizată de The New York Times a evaluat precizia funcției AI Overviews și a constatat că aceasta oferă răspunsuri corecte în 90% din cazuri. Ca urmare, 1 din 10 răspunsuri AI e greșit. Pentru Google, asta înseamnă sute de mii de informații eronate generate în fiecare minut al zilei.
The Times a realizat această analiză cu ajutorul unui startup numit Oumi, implicat la rândul său în dezvoltarea modelelor AI. Compania a folosit instrumente de inteligență artificială pentru a testa AI Overviews cu evaluarea SimpleQA, un test comun pentru măsurarea preciziei modelelor generative precum Gemini.
Lansat de OpenAI în 2024, SimpleQA cuprinde o listă de peste 4.000 de întrebări cu răspunsuri ce pot fi verificate, introduse într-un sistem AI.
Oumi a început testarea anul trecut, când Gemini 2.5 era cel mai performant model al companiei. Atunci, testul indica o rată de precizie de 85%. După reluarea testului în urma actualizării la Gemini 3, AI Overviews a răspuns corect la 91% dintre întrebări.
Prin extrapolarea acestei rate la toate căutările Google, AI Overviews generează zeci de milioane de răspunsuri eronate pe zi.
Raportul include mai multe exemple în care AI Overviews a greșit. Când a fost întrebat data la care fosta locuință a lui Bob Marley a devenit muzeu, funcția a citat 3 surse, dintre care 2 nici măcar nu menționau data.
A 3-a sursă, Wikipedia, oferea 2 date contradictorii, iar AI Overviews a ales cu încredere varianta greșită. În alt caz, testul cerea data la care Yo-Yo Ma a fost inclus într-o listă a muzicii clasice. Deși AI Overviews a citat site-ul organizației unde era menționată includerea, a susținut în mod eronat că nu există un astfel de „Classical Music Hall of Fame”.
Google neagă aceste rezultate
Purtătorul de cuvânt Google, Ned Adriance, a declarat pentru The Times că gigantul tech consideră că SimpleQA conține informații incorecte. Evaluările interne ale companiei se bazează adesea pe o versiune similară numită SimpleQA Verified, care folosește un set mai mic de întrebări, dar verificate mai riguros.
„Acest studiu are lacune serioase,” susține Adriance. „Nu reflectă ceea ce caută oamenii în mod real pe Google.”
Evaluarea noilor modele AI presupune mai multe obstacole. Fiecare companie are propriul mod preferat de a demonstra performanța unui model. Ca urmare, verificarea rezultatelor e dificilă.
Aceste sisteme pot răspunde corect la o întrebare și apoi pot greși complet dacă aceeași întrebare e pusă din nou imediat. Chiar și Oumi folosește AI pentru evaluări, iar aceste modele pot „halucina” la rândul lor.
Un alt aspect complicat e că AI Overviews nu reprezintă un model unic. Google a declarat pentru Ars Technica că folosește „modelul potrivit” pentru fiecare interogare. Deși cele mai bune răspunsuri ar veni din utilizarea constantă a modelului Gemini 3.1 Pro, acesta e lent și costisitor. Pentru a afișa rapid rezultatele, sunt folosite de obicei modelele mai rapide Gemini Flash.
În domeniul acurateței AI, un scor de 9 din 10 nu e considerat neapărat slab. Google a publicat recent rezultatele testelor pentru noile modele, cu rate de precizie între 60% și 80%. Utilizarea unor surse externe, cum ar fi informațiile de pe internet, crește acuratețea AI față de modelul „neantrenat”.
Cel mai gras papagal din lume, pe cale de dispariție, a avut un sezon de reproducere record. Cum a fost salvat kakapo... Primele informații despre seria iPhone din 2026 au fost scurse pe Internet. Pro Max nu va mai fi cel mai scump smartphon...