Scraping, nateja i normalització de dades
Scraping de Dades
Tècnica per capturar dades en línia mitjançant programes o robots per estructurar i recopilar informació.
Objectes que es poden rastrejar
Fulls de càlcul
Scraping amb fulls de càlcul de Google
Les dades romandran al nostre full en línia mentre aquests continuïn en la web analitzada
Les dades s'actualitzen quan la taula o la llista del lloc web s'actualitza.
Es pot configurar el full d'estil perquè ens enviï un correu cada vegada que es produeix un canvi en la llista o taula
LLocs web
Contingut sindicat
Taules PDF
Scraping amb Tabula
El seu funcionament requereix, normalment, la identificació manual de
les taules que es desitgen extreure.
Permet l'extracció de taules a partir de documents PDF.
Nateja
Detectar i eliminar errors o registres duplicats
Normalització de dades
Homogeneïtzar dades per donar coherència
Funcions més utilitzades
IMPORTHTML
importa taules o llistes de
documents HTML
Permet importar al full de càlcul dades procedents de taules i llistes en línia
Sintaxi
=IMPORTHTML ("URL"; "query"; index)
=IMPORTHTML ("URL"; "table"; 1)
=IMPORTHTML ("URL"; "list"; 1)
IMPORTFEED
Importa contingut de canals de contingut sindicat (RSS, etc.)
Permet importar entrades o fraccions d'entrades procedents de feeds (canals RSS)
=IMPORTFEED ("URL"; "consulta" [opcional]; "items [capçaleres]"; TRUE [fer visible]; X [nombre d’elements]”)
IMPORTXML
Importa diferents tipus de
dades estructurades (HTML, CSV, etc.)
mporta dades procedents de documents estructurats, inclosos documents XML,
HTML, CSV, TSV i canals RSS o feeds
Sintaxi
=IMPORTXML ("URL"; "//[XPath+COMANDO XML]")
Pot suportar, com a màxim, aproximadament 50 fórmules d'importació
Es produirà un error quan dues fórmules es col·loquin en camps contigus o molt pròxims i intentin descarregar en un mateix camp diferents dades
Hauràs de vigilar bé que tota la puntuació de la fórmula estigui ben escrita
És fonamental guardar sempre una còpia de les dades
Tasques principals
Eliminació de files buides
Filtratge i selecció de dades
Normalització de noms
Modificació de l’estructura
Eines principals
Per datasets grans
OpenRefine
Per datasets petits
Fulls de càlcul
Avantatges
Facilita el treball amb grans conjunts de dades
Ajuda a explorar i conèixer millor les dades amb els
quals treballarem
Millora la qualitat de les dades
Fusiona i/o redueix el conjunt de dades