Categorias: Todos - eines - dades

por Paul McGrath 5 horas atrás

5

Scraping, nateja i normalització de dades

La gestió i manipulació de dades és essencial per treballar de manera eficient amb grans volums d'informació. Les principals eines utilitzades varien segons la mida del conjunt de dades, destacant OpenRefine per datasets grans i fulls de càlcul per datasets petits.

Scraping, nateja i normalització de dades

És fonamental guardar sempre una còpia de les dades

Avantatges

Fusiona i/o redueix el conjunt de dades
Millora la qualitat de les dades
Ajuda a explorar i conèixer millor les dades amb els quals treballarem
Facilita el treball amb grans conjunts de dades

Eines principals

Per datasets petits
Per datasets grans
OpenRefine

Tasques principals

Modificació de l’estructura
Normalització de noms
Filtratge i selecció de dades
Eliminació de files buides

Pot suportar, com a màxim, aproximadament 50 fórmules d'importació

Hauràs de vigilar bé que tota la puntuació de la fórmula estigui ben escrita

Es produirà un error quan dues fórmules es col·loquin en camps contigus o molt pròxims i intentin descarregar en un mateix camp diferents dades

Funcions més utilitzades

IMPORTXML

Importa diferents tipus de dades estructurades (HTML, CSV, etc.)
mporta dades procedents de documents estructurats, inclosos documents XML, HTML, CSV, TSV i canals RSS o feeds

=IMPORTXML ("URL"; "//[XPath+COMANDO XML]")

IMPORTFEED

Importa contingut de canals de contingut sindicat (RSS, etc.)
Permet importar entrades o fraccions d'entrades procedents de feeds (canals RSS)

=IMPORTFEED ("URL"; "consulta" [opcional]; "items [capçaleres]"; TRUE [fer visible]; X [nombre d’elements]”)

IMPORTHTML

importa taules o llistes de documents HTML
Permet importar al full de càlcul dades procedents de taules i llistes en línia

Sintaxi

=IMPORTHTML ("URL"; "list"; 1)

=IMPORTHTML ("URL"; "table"; 1)

=IMPORTHTML ("URL"; "query"; index)

Scraping, nateja i normalització de dades

Normalització de dades

Homogeneïtzar dades per donar coherència

Nateja

Detectar i eliminar errors o registres duplicats

Scraping de Dades

Tècnica per capturar dades en línia mitjançant programes o robots per estructurar i recopilar informació.
Objectes que es poden rastrejar

Taules PDF

Scraping amb Tabula

Permet l'extracció de taules a partir de documents PDF.

El seu funcionament requereix, normalment, la identificació manual de les taules que es desitgen extreure.

Contingut sindicat

LLocs web

Fulls de càlcul

Scraping amb fulls de càlcul de Google

Es pot configurar el full d'estil perquè ens enviï un correu cada vegada que es produeix un canvi en la llista o taula

Les dades s'actualitzen quan la taula o la llista del lloc web s'actualitza.

Les dades romandran al nostre full en línia mentre aquests continuïn en la web analitzada