Guida per principianti da Semalt sulla rottamazione di pagine Web

Dati e informazioni sul web stanno crescendo di giorno in giorno. Al giorno d'oggi, la maggior parte delle persone usa Google come prima fonte di conoscenza, sia che cerchino recensioni su un'azienda o che stiano cercando di capire un nuovo termine.

Con la quantità di dati disponibili sul Web, si aprono molte opportunità per i data scientist. Sfortunatamente, la maggior parte dei dati sul web non è prontamente disponibile. È presentato in un formato non strutturato indicato come formato HTML che non è scaricabile. Pertanto, richiede la conoscenza e l'esperienza di uno scienziato di dati per farne uso.

Il web scraping è il processo di conversione dei dati presenti in formato HTML in un formato strutturato a cui è possibile accedere e utilizzare facilmente. Quasi tutti i linguaggi di programmazione possono essere utilizzati per un corretto scraping web. Tuttavia, in questo articolo, useremo il linguaggio R.

Esistono diversi modi in cui è possibile estrarre i dati dal Web. Alcuni dei più popolari includono:

1. Copia-incolla umana

Questa è una tecnica lenta ma molto efficiente per estrarre dati dal web. In questa tecnica, una persona analizza i dati e quindi li copia nella memoria locale.

2. Corrispondenza del modello di testo

Questo è un altro approccio semplice ma potente per estrarre informazioni da un web. Richiede l'uso di strutture di corrispondenza delle espressioni regolari dei linguaggi di programmazione.

3. Interfaccia API

Molti siti Web come Twitter, Facebook, LinkedIn, ecc. Forniscono API pubbliche o private che possono essere chiamate utilizzando codici standard per recuperare i dati in un formato prescritto.

4. Analisi del DOM

Si noti che alcuni programmi possono recuperare contenuti dinamici creati dagli script sul lato client. È possibile analizzare le pagine in un albero DOM basato sui programmi che è possibile utilizzare per recuperare alcune parti di queste pagine.

Prima di intraprendere il web scraping in R, devi avere una conoscenza di base di R. Se sei un principiante, ci sono molte ottime fonti che possono aiutarti. Inoltre, devi conoscere HTML e CSS. Tuttavia, poiché la maggior parte dei data scientist non è molto solida con le conoscenze tecniche di HTML e CSS, è possibile utilizzare un software aperto come Selector Gadget.

Ad esempio, se stai raccogliendo dati sul sito web IMDB per i 100 film più popolari pubblicati in un determinato periodo, devi raccogliere i seguenti dati da un sito: descrizione, tempo di esecuzione, genere, valutazione, voti, guadagni lordi, regista e cast. Dopo aver eliminato i dati, è possibile analizzarli in diversi modi. Ad esempio, è possibile creare una serie di visualizzazioni interessanti. Ora, quando hai un'idea generale di cosa sia uno scraping di dati, puoi farcela!