SEO Advanced | Sitemap e Robot.txt
Una sitemap è un file in cui puoi elencare le pagine del tuo sito web aiutando il crawler di Google e degli altri motori di ricerca a scansionare il tuo sito e ad indicizzare i contenuti al suo interno.
A cosa serve una sitemap?
- Nei siti web di grandi dimensioni: permette di organizzare i contenuti
- Rende più facile classificare i contenuti
- Aggiunge facilmente nuovi contenuti ai siti (es. articoli).
- Internal linking: gli argomenti sono collegati per via dell’argomento
- Migliorare la struttura di un sito
Sitemap XML
Viene creata per aiutare i crawler come GoogleBot, per indicizzare i contenuti. Questo file consente ai motori di ricerca di “visualizzare” la struttura del tuo sito web.
La Sitemap XML ha alcuni limiti che devono essere rispettati: non possono essere inseriti più di 50.000 URL e il file non compresso non deve pesare più di 50MB. Possiamo inserire al suo interno, oltre l’elenco degli URL, anche altre informazioni utili al motore di ricerca, come:
- data dell’ultimo aggiornamento della pagina;
- frequenza di aggiornamento;
- priorità dell’URL rispetto ad altre pagine del sito.
Sitemap HTML
È un esempio di sitemap pensata esclusivamente per gli utenti. Contiene tutti gli URL del sito web e la sua utilità consiste nel semplificare la navigazione per l’utente, mappando la struttura del nostro sito. A differenza del formato XML, la sitemap HTML si presenta ben leggibile ad un utente normale e non ha nessuna finalità riguardo l’indicizzazione del sito.Sitemap per immagini
È una sitemap pensata, come avrai intuito, per le immagini e i suoi contenuti correlati. Questa ti sarà utile per posizionarti nella sezione ricerca Immagini di Google e per aggiungere informazioni cruciali come:
- URL
- Luogo
- Didascalia
- Titolo
Puoi elencare fino a 1000 immagini per ogni pagina.
Robot.txt
Si può impedire al crawler di leggere tutte le nostre pagine? Sì, e il metodo è il robot.txt
Fonte: Robots.txt
User-agent: [bot identifier]
[directive 1]
[directive 2]
[directive ...]
User-agent: [another bot identifier]
[directive 1]
[directive 2]
[directive ...]
User-agent
- Google: Googlebot
- Google Images: Googlebot-Image
- Bing: Bingbot
- Yahoo: Slurp
- Baidu: Baiduspider
- DuckDuckGo: DuckDuckBot
Direttive supportate
Disallow
Allow
Sitemap
Direttive non supportate
Crawl-delay
In precedenza, avresti potuto utilizzare questa direttiva per specificare un ritardo di scansione in secondi. Ad esempio, se avessi voluto che Googlebot aspettasse 5 secondi dopo ogni azione di scansione, imposteresti il crawl delay a 5 in questo modo:
User-agent: Googlebot
Crawl-delay: 5
Google non supporta questa direttiva, ma Bing e Yandex si.
Noindex
Questa direttiva non è mai stata ufficialmente supportata da Google. D’altra parte, fino a poco fa, si pensava che Google avesse un qualche “codice che gestisce regole non supportate e non pubblicate (quali noindex).”
Nofollow
Questa è un’altra direttiva che Google non ha mai ufficialmente supportato, e che veniva utilizzata per istruire ai motori di ricerca di non seguire i link sulle pagine e file sotto un determinato percorso.