Come evitare che Google scansioni una pagina: il file robots.txt

In questo articolo ti parlerò di un file molto importante per l’ottimizzazione SEO di un sito web: il robots.txt.
Scoprirai che cos’è, dove lo puoi trovare e come modificarlo.
Prima però lascia che mi presenti, sono Edoardo ed ho creato edoseo.it per mettere in pratica ciò che sto studiando e continuare a migliorare, se ti va inserisci il sito nei preferiti per leggere altri contenuti come questo!
E ora iniziamo!

Che cos’è il file robots.txt e a cosa serve?

Il robots.txt è un file di testo che si trova nella root del sito web e che viene utilizzato per comunicare ai motori di ricerca quali pagine del sito non devono essere indicizzate. Se non sai che cos’è la root non preoccuparti, lo vedremo nel prossimo paragrafo.

In pratica, il file robots.txt viene letto dai crawler dei motori di ricerca (come Google) e contiene istruzioni su quali pagine del sito devono essere escluse dall’indicizzazione.

Il file robots.txt viene utilizzato principalmente per evitare che le pagine del sito web che non sono importanti o sono private, non vengano visualizzate nei risultati di ricerca. In questo modo, è possibile garantire che le pagine più importanti del sito siano facilmente rintracciabili e che i motori di ricerca le indicizzino correttamente.
Questo file può essere anche usato per evitare l’indicizzazione di pagine duplicate, come possono essere le pagine 2,3,4,ecc..di un blog, o i vari filtri per un ecommerce.

Due cose importanti da sapere:

le pagine inserite in questo file non potranno passare autorità ad altre pagine tramite i link, perché i motori di ricerca non saranno a conoscenza di questi link.
le pagine che vengono escluse tramite robots.txt potranno comunque essere indicizzate se altre pagine su internet hanno dei link verso di essa

Dove si trova il file robots.txt?

Come dicevo prima il file robots.txt si trova nella root del sito web, ovvero nella cartella principale del sito.
Questa cartella può essere aperta in diversi modi:

tramite il tuo hosting, dovresti trovare la possibilità di accedere al file manager, e da lì accedere al file robots.txt
se utilizzi WordPress, tramite un plugin come File Manager, che ti permette di accedere alla directory del tuo sito in modo facile e veloce

Puoi verificare se il tuo sito ha già un file robots.txt semplicemente aggiungendo /robots.txt al tuo dominio, in questo modo: www.miosito.com/robots.txt.
In questo modo potrai anche vedere com’è scritto il file di altri siti web, qui sotto puoi vedere quello di Amazon.it.

In questo esempio il file è molto lungo e può risultare complesso perché Amazon ha moltissime pagine e giustamente blocca i motori di ricerca per quelle che non hanno lo scopo di essere indicizzate.
Per siti piccoli il robots txt risulterà molto più breve e facile da comprendere.

Come scrivere Robots Txt?

Per scrivere correttamente il file robots.txt, è necessario conoscere alcune regole fondamentali.
In primo luogo, il file deve essere un documento di testo semplice, senza alcun tipo di formattazione o codice, se lo crei da zero deve essere salvato tassativamente come “robots.txt”.
Inoltre, il file deve essere scritto utilizzando il formato standard di comandi e direttive.

Il formato standard di comandi e direttive prevede l’utilizzo di due tipi di istruzioni principali: User-agent e Disallow.

User-agent

L’istruzione User-agent viene utilizzata per indicare il motore di ricerca a cui si riferisce la direttiva. Ad esempio, l’istruzione User-agent: Googlebot indica che la direttiva si riferisce al crawler di Google.

Utilizzando User-agent: * le restrizioni saranno valide per tutti i motori di ricerca (escluso AdsBot, il bot di Google che controlla gli annunci)

Disallow

L’istruzione Disallow viene utilizzata per indicare le pagine che devono essere escluse dall’indicizzazione.

Un esempio di file robots.txt potrebbe essere il seguente:

User-agent: Googlebot
Disallow: /carrello
Disallow: /login
User-agent: Bingbot
Disallow: /wp-admin

In questo caso indichiamo al bot di Google di non scansionare la pagina del carrello (nel caso di un ecommerce) e la pagina dove si effettua il login, ed al bot di Bing di non scansionare la pagina di accesso al pannello WordPress.

Come detto prima queste sono le direttive base del file robots.txt ma ne esistono anche di più avanzate

Crawl Delay

La direttiva Crawl Delay è supportata da Google, Bing e Ask. Il suo obiettivo è quello di non sovraccaricare il server su cui è ospitato il sito attendendo alcuni secondi tra la scansione di una pagina e quella successiva. Ecco un esempio

User-agent: Googlebot
Crawl-delay: 3

Allow

Questa direttiva funziona in modo contrario rispetto a Disallow e può essere utile per permettere la scansione di file all’interno di una directory bloccato.
Se ad esempio volessi bloccare la scansione per la cartella /private ma al suo interno si trovasse una file o una pagina che vuoi venga scansionata dovrai fare così:

User-agent: *
Disallow: /private
Allow: /private/pagina-importante

Sitemap

Questa direttiva non blocca i motori di ricerca ma gli indica qual è la posizione della Sitemap.
Può essere posizionata in qualsiasi punto del file e deve contenere il link esatto alla Sitemap, come in questo esempio:

Sitemap: https://edoseo.it/sitemap_index.xml

Queste sono le direttive che vengono accettate dai motori di ricerca.
Per essere sicuro che il file sia scritto in maniera corretta segui queste regole:

Non scrivere due direttive sulla stessa riga, vai a capo
Se includi diversi User-agent lascia una riga tra uno e l’altro, così:

User-agent: Googlebot
Disallow: /

User-agent: BingBot
Disallow:/
Puoi utilizzare il simbolo # per inserire commenti all’interno del file
Verifica di scrivere correttamente i nomi dei file, maiuscole e minuscole hanno rilevanza
Se hai un sottodominio, tipo blog.sito.it, devi creare un robots.txt anche per esso

Come verificare il file robots.txt?

Per essere sicuro al 100% di aver scritto correttamente potresti utilizzare uno strumento offerto da Google, ovvero il Tester dei file robots.txt. Per utilizzarlo è necessario avere una proprietà verificata del proprio sito.
Dopo aver inserito la proprietà del tuo sito ti apparirà una schermata come questa:

Come puoi vedere questa Sitemap non presenta errori e infondo alla pagina è presente una barra dove puoi inserire un URL, per controllare se è bloccato o meno, e da quali bot.

Conclusione

In conclusione, il file robots.txt è uno strumento molto importante per l’ottimizzazione SEO del sito web, in quanto consente di indicare ai motori di ricerca quali pagine del sito devono essere escluse dall’indicizzazione.
È importante ricordare che l’utilizzo del file robots.txt non garantisce che le pagine escluse dall’indicizzazione non vengano comunque visualizzate nei risultati di ricerca. Infatti, se un utente inserisce direttamente l’URL della pagina esclusa nella barra di ricerca del motore di ricerca, la pagina potrebbe comunque essere visualizzata nei risultati di ricerca.

Spero di averti dato una mano a comprendere che cos’è il file robots.txt e come scriverlo correttamente.

A presto,
Edoardo

Come evitare che Google scansioni una pagina: il file robots.txt

Che cos’è il file robots.txt e a cosa serve?

Dove si trova il file robots.txt?

Come scrivere Robots Txt?

User-agent

Disallow

Crawl Delay

Allow

Sitemap

Come verificare il file robots.txt?

Conclusione

Come verificare la tua posizione su Google

Scrittura SEO: Come scrivere un articolo ottimizzato

Leave a comment Annulla risposta

Che cos’è il file robots.txt e a cosa serve?

Dove si trova il file robots.txt?

Come scrivere Robots Txt?

User-agent

Disallow

Crawl Delay

Allow

Sitemap

Come verificare il file robots.txt?

Conclusione

Ti potrebbe interessare anche

Leave a comment Annulla risposta