És fonamental guardar sempre una còpia de les dades
Avantatges
Fusiona i/o redueix el conjunt de dades
Millora la qualitat de les dades
Ajuda a explorar i conèixer millor les dades amb els
quals treballarem
Facilita el treball amb grans conjunts de dades
Eines principals
Per datasets petits
Per datasets grans
OpenRefine
Tasques principals
Modificació de l’estructura
Normalització de noms
Filtratge i selecció de dades
Eliminació de files buides
Pot suportar, com a màxim, aproximadament 50 fórmules d'importació
Hauràs de vigilar bé que tota la puntuació de la fórmula estigui ben escrita
Es produirà un error quan dues fórmules es col·loquin en camps contigus o molt pròxims i intentin descarregar en un mateix camp diferents dades
Funcions més utilitzades
IMPORTXML
Importa diferents tipus de
dades estructurades (HTML, CSV, etc.)
mporta dades procedents de documents estructurats, inclosos documents XML,
HTML, CSV, TSV i canals RSS o feeds
=IMPORTXML ("URL"; "//[XPath+COMANDO XML]")
IMPORTFEED
Importa contingut de canals de contingut sindicat (RSS, etc.)
Permet importar entrades o fraccions d'entrades procedents de feeds (canals RSS)
=IMPORTFEED ("URL"; "consulta" [opcional]; "items [capçaleres]"; TRUE [fer visible]; X [nombre d’elements]”)
IMPORTHTML
importa taules o llistes de
documents HTML
Permet importar al full de càlcul dades procedents de taules i llistes en línia
Sintaxi
=IMPORTHTML ("URL"; "list"; 1)
=IMPORTHTML ("URL"; "table"; 1)
=IMPORTHTML ("URL"; "query"; index)
Scraping, nateja i normalització de dades
Normalització de dades
Homogeneïtzar dades per donar coherència
Nateja
Detectar i eliminar errors o registres duplicats
Scraping de Dades
Tècnica per capturar dades en línia mitjançant programes o robots per estructurar i recopilar informació.
Objectes que es poden rastrejar
Taules PDF
Scraping amb Tabula
Permet l'extracció de taules a partir de documents PDF.
El seu funcionament requereix, normalment, la identificació manual de
les taules que es desitgen extreure.
Contingut sindicat
LLocs web
Fulls de càlcul
Scraping amb fulls de càlcul de Google
Es pot configurar el full d'estil perquè ens enviï un correu cada vegada que es produeix un canvi en la llista o taula
Les dades s'actualitzen quan la taula o la llista del lloc web s'actualitza.
Les dades romandran al nostre full en línia mentre aquests continuïn en la web analitzada