Kategoriak: All - eines - dades

arabera Paul McGrath 3 hours ago

4

Scraping, nateja i normalització de dades

La manipulació i gestió de dades és essencial per garantir la seva qualitat i utilitat en qualsevol projecte. Aquesta tasca inclou diverses activitats com el filtratge, la selecció, l’

Scraping, nateja i normalització de dades

= Indica el començament d'una fórmula IMPORHTML És el nom de la funció que s'està utilitzant " " Indica que el seu contingut són caràcters 1 És un índex numèric (la primera taula/llista)

És fonamental guardar sempre una còpia de les dades

Avantatges

Fusiona i/o redueix el conjunt de dades
Millora la qualitat de les dades
Ajuda a explorar i conèixer millor les dades amb els quals treballarem
Facilita el treball amb grans conjunts de dades

Eines principals

Per datasets petits
Per datasets grans
OpenRefine

Tasques principals

Modificació de l’estructura
Normalització de noms
Filtratge i selecció de dades
Eliminació de files buides

Pot suportar, com a màxim, aproximadament 50 fórmules d'importació

Hauràs de vigilar bé que tota la puntuació de la fórmula estigui ben escrita

Es produirà un error quan dues fórmules es col·loquin en camps contigus o molt pròxims i intentin descarregar en un mateix camp diferents dades

Llocs web

Funcions més utilitzades

IMPORTXML

Importa diferents tipus de dades estructurades (HTML, CSV, etc.)

IMPORTFEED

Importa contingut de canals de contingut sindicat (RSS, etc.)

IMPORTHTML

importa taules o llistes de documents HTML
Permet importar al full de càlcul dades procedents de taules i llistes en línia

Sintaxi

=IMPORTHTML ("URL"; "list"; 1)

=IMPORTHTML ("URL"; "table"; 1)

=IMPORTHTML ("URL"; "query"; index)

Scraping, nateja i normalització de dades

Normalització de dades

Homogeneïtzar dades per donar coherència

Nateja

Detectar i eliminar errors o registres duplicats

Scraping de Dades

Tècnica per capturar dades en línia mitjançant programes o robots per estructurar i recopilar informació.
Objectes que es poden rastrejar

Contingut sindicat

taules PDF

Fulls de càlcul

Scraping amb fulls de càlcul de Google

Es pot configurar el full d'estil perquè ens enviï un correu cada vegada que es produeix un canvi en la llista o taula

Les dades s'actualitzen quan la taula o la llista del lloc web s'actualitza.

Les dades romandran al nostre full en línia mentre aquests continuïn en la web analitzada