Ricardo Baeza-Yates: «El Big Data a la Web el generen els internautes»

El segon dia del Big Data Congress de Barcelona, dedicat a les tecnologies d’anàlisi i visualització de les dades massives | Ricardo Baeza-Yates, vicepresident d’investigació del Yahoo! Labs, ha estrenat la jornada parlant dels desafiaments del Big Data a la web| "El biaix de la Web és un dels grans problemes actuals de les dades massives”, assegura

Ricardo Baeza
Ricardo Baeza | Adrià Costa
04 de novembre del 2015
Actualitzat el 05 de novembre a les 10:40h
Viktor Mayer-Schönberger i Kenneth Cukier, autors del llibre: Big Data: Una revolució que canviarà la manera com vivim, treballem i pensem, expliquen que no podem entendre la revolució de les dades massives si les quantitats que representen no les traduïm a una equivalència de la vida real. Són xifres tan immenses que resulta complicat fer-se a la idea de què implica. 

Avui, l’investigador del Yahoo! Labs, Ricardo Baeza-Yates, ha obert la segona jornada del Big Data Congress parlant sobre les dimensions de la Web –entesa com tot el contingut que podem trobar a Internet-. "La Web és infinita, ha anat creixent al llarg dels més de 20 anys d’existència d’Internet. A mesura que s’han anat incorporant usuaris, el contingut ha crescut exponencialment". El resultat és una allau enorme de dades que es poden filtrar, analitzar i estudiar per canviar patrons, encertar més en els serveis que ofereixin o entendre comportaments ciutadans. Els reptes als quals s’enfronten avui dia els experts en Big Data passen per detectar el biaix, la redundància, la dispersió i la privadesa. 

NacióDigital ha parlat amb el vicepresident de YahooLabs perquè expliqui amb més detall el que implica el concepte Big Data i com influeix la interacció dels 3.000 milions d’usuaris que actualment té Internet. “És un concepte complicat perquè depèn del moviment de milions de persones disperses per tot el món. Però es pot dir que tot el que està a la Web és Big Data". 

El biaix i el desert digital

Actualment, hi ha uns 850 milions de webs actives a Internet. Però quantes d’aquestes es coneixen? I com es pot arribar a elles? Moltes queden ocultes perquè els cercadors no les destaquen. “És important prestar atenció al biaix de les dades”, insisteix Baeza-Yates. Aquest pot ser de caire tecnològic, educatiu, econòmic, geogràfic, social, cultural, lingüístic, religiós, polític, de gènere, de soroll, de validesa, etc. “Agafa la Wikipedia, el seu contingut en biografies està esbiaixat en personatges masculins. Per dues raons: perquè hi ha menys personatges femenins degut a com s'ha explicat la Història però també perquè la majoria d’editors de la Wikipedia són homes. Altre biaix més subtil és la manera en què un blog molt popular va pujant posicions de visites, mentre que altres queden relegats a l’última posició. Per tant, mai tenen l’oportunitat de ser vistos”.

L’investigador de Yahoo! Labs denomina aquesta tendència el "desert digital". “Vindria a ser tot el contingut d’Internet que ningú llegeix. A partir d’unes dades de Twitter del 2011, vam observar que més d’un 1% d’usuaris no té cap seguidor. Si comptes, els milions d’usuaris que registra aquesta xarxa social parlem d’una quantitat molt alta. El mateix passa a Facebook: alguna vegada has llegit totes les entrades escrites per un amic teu? A on queda això? Un percentatge molt alt del contingut que es canvia cada dia a Wikipedia, no el veu ningú”. 

L’altre aspecte interessant del Big Data de la Web és qui genera el contingut. Una part molt petita el creen mitjans de comunicació, administracions públiques i empreses. “Aquest contingut és de qualitat però és molt poc si el comparem amb la gran quantitat generada pels 3 mil milions d’internautes, que pengen vídeos, blogs, fotos, àudios, etc. Part d'aquest material és molt bo, però és complicat trobar-lo”. 

A Yahoo! Labs es van analitzar dades de Facebook i es va arribar a la conclusió que només el 7% dels usuaris generaven la meitat del contingut de la plataforma. “Hi ha molts perfils buits, sense res. El mateix passa a Twitter. Només el 2% genera la meitat de les piulades del món”. Segons Ricardo Baeza-Yates aquest és un fet normal, reproduït de la vida real a Internet. “En aquest Big Data Congress quan el moderador d’una conferència deixa temps al públic per fer una pregunta, d'un miler d'assistents només aixequen la mà una o dues. El mateix passa a Internet: els que llegeixen són milions i els que escriuen molt pocs". 

El Big Data a la publicitat

Quan parlem de publicitat, el Big Data també es té molt en compte. “Només el 3% dels usuaris actius de Yahoo! és suficient per mantenir tots els serveis que oferim. Aquesta xifra, encara que sembli molt baixa, és enorme. Uns pocs fan possible que moltíssims gaudeixin de serveis gratuïts. Però no tots els clics valen el mateix. Si algú consulta el resultat que està a la posició número 20, té més valor. Per què? Si com a cercador, sempre mostro el més visitat, com puc estar segur que no hi ha un nou contingut que valgui la pena i que no estic destacant? Apliquem la fórmula: “Explorar i explotar”, de manera que donem l’oportunitat a pàgines web en posicions baixes de ser visitades”.   

Tot i que a Barcelona s'ha celebrat per primera vegada el Big Data Congress, l'investigador del Yahoo! Labs puntualitza que, avui dia, als Estats Units tot passa per l'anàlisi de les dades massives. "Hi ha un ecosistema: tant d'empreses que creen tecnologies noves com d'altres que treballen per facilitar-ne la feina dels que investiguen amb les dades, per representar-les i aplicar els resultats amb diferents propòsits". Per acabar, Ricardo Baeza-Yates ha pronosticat que el Big Data personal, amb sensors en el cos i a la llar, permetrà que les persones puguin millorar la seva qualitat de vida, amb medicina personalitzada.
 

Ricardo Baeza, al Big Data Congress Foto: Susanna Sáez Catllà