Elisabetta Barone - E-commerce, SEO, Web Marketing | Torino
E-commerce, SEO, Web Marketing

Migrazione senza SEO? Ecco come recuperarla
Grazie ad uno scraping di Google

Aggiornato il 22 Dicembre 2020

L'hai fatta grossa: hai preso alla leggera la migrazione SEO del sito e ora ti ritrovi pieno di errori 404. Aiuto! 

In questa guida ti spiego passo a passo come recuperare da Google tutte le pagine indicizzate del tuo sito web, che dopo la migrazione restituiscono errore 404. Grazie a questo elenco potrai fare gli opportuni redirect da vecchio a nuovo sito, salvando il posizionamento acquisito.

Hai affrontato una "migrazione" in caso di:
  • trasferimento dominio: cambiare dominio senza perdere posizionamento è una delle sfide di una corretta migrazione SEO
  • ristrutturazione dell'architettura del sito: cambiamenti della categorizzazione degli articoli, del menu di navigazione...
  • cambio di piattaforma tecnologica: da Joomla a Worpress, ad esempio
  • passaggio da http ad https: il protocollo di sicurezza ora è un must have ma una volta non era così
  • in generale: qualunque cambiamento che comporti modifiche massive alle URL

Purtroppo capita spesso che queste operazioni vengano fatte senza avere la percezione che l'impatto SEO potrebbe essere terribile: se tutte le pagine che Google conosce del nostro sito ora restituiscono errore, presto Google le rimuoverà dal suo indice e dovremo... Ricominciare da capo!

Però ormai la frittata è fatta, inutile piangersi addosso: ecco come migrare un sito... A posteriori.

Come recuperare una migrazione SEO a posteriori con uno scraping di Google

Scraping della SERP di Google step by step

  1. Configuro Screaming Frog
  2. Cerco su Google le pagine indicizzate del sito
  3. Recupero l'XPath del title dello snippet di ricerca
  4. Creo una Custom Extraction su Screaming Frog
  5. Preparo una lista di pagine di SERP da scansionare
  6. Scansiono la mia lista
  7. Ottengo il mio elenco di URL indicizzate per i redirect

Ecco di cosa avremo bisogno:

  • operatore site:
  • Screaming Frog
  • un pizzico di XPath

1. Configuro Screaming Frog

  • Configuration > robots.txt > Settings > Ignore robots.txt
  • Configuration > User-Agent > Present User Agents > Chrome
  • Configuration > Speed > Max Threads = 1 > Max URI/s = 0.5
In questo modo posso scansire la pagine di SERP come fosse un sito qualsiasi, senza far imbizzarrire Google (che altrimenti mi blocca con un captcha).

2. Cerco su Google le pagine indicizzate del sito

Per farlo uso l'operatore site: nella barra di ricerca di Google:
  • site:www.miosito.com

3. Recupero l'XPath del title dello snippet di ricerca

Porto il mouse su un title a caso della pagina dei risultati di ricerca:
  • clicco sul tasto destro del mouse e seleziono "Ispeziona"
  • mi metto sul codice e seleziono il nodo che mi interessa
  • clicco sul tasto destro del mouse e seleziono "copia XPath"

Quello che copio è questo: 

//*[@id="rso"]/div[1]/div/div[1]/a

tolgo i numeri e le parentesi quadre per prendere tutti e 10 i title della SERP e mi rimane:

//*[@id="rso"]/div/div/div/a

gli aggiungo l'attributo href, perché quello che voglio alla fine ottenere è l'url:

//*[@id="rso"]/div/div/div/a/@href

Scraping Google: recupero l'XPath

4. Creo una Custom Extraction su Screaming Frog

Su Screaming Frog vado su Configuration > Custom > Extraction

  • Aggiungo la mia estrazione personalizzata, che chiamo "miosito"
  • inserisco l'XPath che mi sono procurata, ovvero: //*[@id="rso"]/div/div/div/a/@href
  • seleziono "Extract Text"

Craping Google con Custom Extraction di Screaming Frog

5. Preparo una lista di pagine di SERP da scansionare

Mi preparo una lista di URL, una per ogni pagina della serp di cui voglio ottenere le url del mio sito:

  • https://www.google.com/search?q=site:www.miosito.com
  • https://www.google.com/search?q=site:www.miosito.com&start=10
  • https://www.google.com/search?q=site:www.miosito.com&start=20
  • https://www.google.com/search?q=site:www.miosito.com&start=30
  • ecc.

6. Scansiono la mia lista

Metto Screaming Frog in modalità lista e scansiono la lista delle mie URL.

Nella tab Custom Extraction di Screaming Frog, se tutto è andato liscio, mi dovrei trovare tante righe quante sono le url che ho caricato e 10 colonne, una per ogni link della pagina di ricerca di Google: le url che stavo cercando!

7. Ottengo il mio elenco di URL indicizzate per i redirect

Faccio download della tabella, con un editor di testo qualunque (io uso Text Edit del Mac in modalità solo testo) riduco le 10 colonne in un elenco grazie a un trova e sostituisci (trova tab e sostituisci con a capo).

Ecco fatto! Ora posso passare il mio elenco dentro Screaming Frog in modalità lista e verificare quali url danno codice di errore 404 - pagina non trovata. Ora non mi resta che fare i redirect 301 alle nuove risorse.