SEO Advanced | Sitemap e Robot.txt

Una sitemap è un file in cui puoi elencare le pagine del tuo sito web aiutando il crawler di Google e degli altri motori di ricerca a scansionare il tuo sito e ad indicizzare i contenuti al suo interno.

A cosa serve una sitemap?

Nei siti web di grandi dimensioni: permette di organizzare i contenuti
Rende più facile classificare i contenuti
Aggiunge facilmente nuovi contenuti ai siti (es. articoli).
Internal linking: gli argomenti sono collegati per via dell’argomento
Migliorare la struttura di un sito

Sitemap XML

Viene creata per aiutare i crawler come GoogleBot, per indicizzare i contenuti. Questo file consente ai motori di ricerca di “visualizzare” la struttura del tuo sito web.
La Sitemap XML ha alcuni limiti che devono essere rispettati: non possono essere inseriti più di 50.000 URL e il file non compresso non deve pesare più di 50MB. Possiamo inserire al suo interno, oltre l’elenco degli URL, anche altre informazioni utili al motore di ricerca, come:

data dell’ultimo aggiornamento della pagina;
frequenza di aggiornamento;
priorità dell’URL rispetto ad altre pagine del sito.

Sitemap HTML

È un esempio di sitemap pensata esclusivamente per gli utenti. Contiene tutti gli URL del sito web e la sua utilità consiste nel semplificare la navigazione per l’utente, mappando la struttura del nostro sito. A differenza del formato XML, la sitemap HTML si presenta ben leggibile ad un utente normale e non ha nessuna finalità riguardo l’indicizzazione del sito.

Sitemap per immagini

È una sitemap pensata, come avrai intuito, per le immagini e i suoi contenuti correlati. Questa ti sarà utile per posizionarti nella sezione ricerca Immagini di Google e per aggiungere informazioni cruciali come:

URL
Luogo
Didascalia
Titolo

Puoi elencare fino a 1000 immagini per ogni pagina.

Robot.txt

Si può impedire al crawler di leggere tutte le nostre pagine? Sì, e il metodo è il robot.txt

Fonte: Robots.txt

Sitemap: [URL location of sitemap]
User-agent: [bot identifier]
[directive 1]
[directive 2]
[directive ...]
User-agent: [another bot identifier]
[directive 1]
[directive 2]
[directive ...]

User-agent

Ogni motore di ricerca si identifica con un diverso user-agent. Puoi definire istruzioni personalizzate per ciascuno di essi nel tuo file robots.txt. Ci sono centinaia di user-agent, ma ecco alcuni dei più utili da conoscere per SEO:

Google: Googlebot
Google Images: Googlebot-Image
Bing: Bingbot
Yahoo: Slurp
Baidu: Baiduspider
DuckDuckGo: DuckDuckBot

Direttive supportate

Ecco le direttive che Google supporta attualmente, ed i relativi utilizzi.

Disallow

Utilizza questa direttiva per istruire ai motori di ricerca di non accedere ai file e alle pagine che seguono questo percorso.

Allow

Usa questa direttiva per permettere ai motori di ricerca di scansionare una subdirectory o pagina anche se si trovasse in una directory altrimenti permessa.

Sitemap

Usa questa direttiva per specificare il luogo della tua(e) sitemap ai motori di ricerca. Se non hai familiarità con le sitemap, solitamente includono le pagine che vuoi che i motori di ricerca scansionino ed indicizzino.

Direttive non supportate

Ecco qui le direttive che non sono più supportate da Google, alcune delle quali non lo sono mai state.

Crawl-delay

In precedenza, avresti potuto utilizzare questa direttiva per specificare un ritardo di scansione in secondi. Ad esempio, se avessi voluto che Googlebot aspettasse 5 secondi dopo ogni azione di scansione, imposteresti il crawl delay a 5 in questo modo:
User-agent: Googlebot
Crawl-delay: 5
Google non supporta questa direttiva, ma Bing e Yandex si.

Noindex

Questa direttiva non è mai stata ufficialmente supportata da Google. D’altra parte, fino a poco fa, si pensava che Google avesse un qualche “codice che gestisce regole non supportate e non pubblicate (quali noindex).”

Nofollow

Questa è un’altra direttiva che Google non ha mai ufficialmente supportato, e che veniva utilizzata per istruire ai motori di ricerca di non seguire i link sulle pagine e file sotto un determinato percorso.

Cerca nel blog

Sharing Knowledge | Gianmarco Landriani