Scraping, nateja i normalització de dades

Scraping de Dades

Tècnica per capturar dades en línia mitjançant programes o robots per estructurar i recopilar informació.

Objectes que es poden rastrejar

Fulls de càlcul

Scraping amb fulls de càlcul de Google

Les dades romandran al nostre full en línia mentre aquests continuïn en la web analitzada

Les dades s'actualitzen quan la taula o la llista del lloc web s'actualitza.

Es pot configurar el full d'estil perquè ens enviï un correu cada vegada que es produeix un canvi en la llista o taula

LLocs web

Contingut sindicat

Taules PDF

Scraping amb Tabula

El seu funcionament requereix, normalment, la identificació manual de
les taules que es desitgen extreure.

Permet l'extracció de taules a partir de documents PDF.

Nateja

Detectar i eliminar errors o registres duplicats

Normalització de dades

Homogeneïtzar dades per donar coherència

Funcions més utilitzades

IMPORTHTML

importa taules o llistes de
documents HTML

Permet importar al full de càlcul dades procedents de taules i llistes en línia

Sintaxi

=IMPORTHTML ("URL"; "query"; index)

=IMPORTHTML ("URL"; "table"; 1)

=IMPORTHTML ("URL"; "list"; 1)

IMPORTFEED

Importa contingut de canals de contingut sindicat (RSS, etc.)

Permet importar entrades o fraccions d'entrades procedents de feeds (canals RSS)

=IMPORTFEED ("URL"; "consulta" [opcional]; "items [capçaleres]"; TRUE [fer visible]; X [nombre d’elements]”)

IMPORTXML

Importa diferents tipus de
dades estructurades (HTML, CSV, etc.)

mporta dades procedents de documents estructurats, inclosos documents XML,
HTML, CSV, TSV i canals RSS o feeds

Sintaxi

=IMPORTXML ("URL"; "//[XPath+COMANDO XML]")

Pot suportar, com a màxim, aproximadament 50 fórmules d'importació

Es produirà un error quan dues fórmules es col·loquin en camps contigus o molt pròxims i intentin descarregar en un mateix camp diferents dades

Hauràs de vigilar bé que tota la puntuació de la fórmula estigui ben escrita

És fonamental guardar sempre una còpia de les dades

Tasques principals

Eliminació de files buides

Filtratge i selecció de dades

Normalització de noms

Modificació de l’estructura

Eines principals

Per datasets grans

OpenRefine

Per datasets petits

Fulls de càlcul

Avantatges

Facilita el treball amb grans conjunts de dades

Ajuda a explorar i conèixer millor les dades amb els
quals treballarem

Millora la qualitat de les dades

Fusiona i/o redueix el conjunt de dades