robots.txt

Cos'e

Il file robots.txt indica ai crawler quali aree del sito possono scansionare. Non riguarda la sicurezza ne l'indicizzazione: serve a gestire il traffico dei bot e a segnalare la posizione della Sitemap.

Il robots.txt controlla la scansione (crawling), non l'indicizzazione. Se il file manca, di solito non e un problema critico: Google si comporta come se non fosse stata dichiarata alcuna restrizione specifica via robots.txt. Se invece il file restituisce un errore del server, il problema e piu serio, perche Google puo rallentare o sospendere la scansione del sito.

Info: "scansione" significa leggere il contenuto di una pagina; "indicizzazione" significa inserirla nei risultati di ricerca. Sono due cose diverse, ed e il punto chiave di questa guida.

Il robots.txt e un file di testo, posizionato nella root del sito, per esempio https://esempio.com/robots.txt, che implementa il Robots Exclusion Protocol per comunicare ai crawler quali percorsi possono o non possono scansionare.

Deve trovarsi esattamente nella root del dominio: un file inserito in una sottocartella, per esempio /assets/robots.txt, viene ignorato. Il nome del file e case-sensitive e va scritto in minuscolo.

https://esempio.com/robots.txt non ha effetto su http://esempio.com/robots.txt.
Non copre sottodomini come sub.esempio.com.
Non si estende ad altre porte, per esempio :8080.

Nota tecnica: ogni sottodominio e ogni combinazione protocollo/porta richiede un proprio file robots.txt indipendente.

Perche è importante

Crawling, non indicizzazione. Bloccare una pagina con Disallow impedisce a Google di leggerla, ma non garantisce che resti fuori dai risultati di ricerca.
Crawl budget. Per i siti piccoli di solito non e un fattore critico. Per siti grandi, e-commerce o siti con molte pagine, il robots.txt aiuta a indirizzare la scansione verso le aree piu utili.
Sitemap. Permette di indicare ai crawler dove trovare la Sitemap XML.

Info: il robots.txt non impedisce l'indicizzazione. Una pagina bloccata con Disallow puo comunque comparire nei risultati di ricerca se riceve link esterni: Google non ne legge il contenuto, ma puo indicizzarne l'URL.

Warning: se blocchi una pagina con Disallow, Google non potra leggere un eventuale tag noindex su quella pagina, perche non la scansiona. Il risultato puo essere l'opposto di quello che cerchi: la pagina resta indicizzata. Per tenere una pagina fuori dall'indice, lasciala scansionabile e usa noindex nel suo HTML.

Dal settembre 2019 Google non supporta piu la direttiva noindex scritta dentro il file robots.txt: viene ignorata.

Come CyberLens lo controlla

CyberLens recupera il file robots.txt e verifica:

la presenza del file nella posizione prevista, cioe /robots.txt;
lo status HTTP restituito dalla richiesta, per esempio 2xx, 4xx, 5xx o 429;
una anteprima del contenuto restituito, utile per una lettura rapida del file;
la presenza della direttiva Sitemap;
il fatto che il file contenga o meno un riferimento esplicito alla Sitemap XML.

Future Enhancements: controlli piu avanzati, come l'analisi delle singole regole Allow/Disallow, il rilevamento di blocchi totali o di asset critici, e la validazione dettagliata della sintassi, sono previsti in evoluzioni future.

Possibili risultati

Ogni finding e indipendente: puoi andare direttamente a quello segnalato nel tuo report.

Robots.txt assente (404/410)

Severita: Bassa / Info

Il file non esiste. Google si comporta come se non fosse dichiarata alcuna restrizione specifica via robots.txt. Questo non garantisce che ogni pagina venga scansionata, perche il crawling dipende anche dai link interni, dalla qualita del sito, dal tempo di scansione disponibile e da altri segnali. Il limite piu concreto e l'assenza di un canale nativo per segnalare la Sitemap.

Robots.txt irraggiungibile (5xx / 429)

Severita: Critica

Il server risponde con un errore di stabilita, come 5xx, o di rate-limiting, come 429. Google interpreta questa situazione come un problema del server e puo rallentare o sospendere la scansione dell'intero sito finche il file non torna raggiungibile. E il caso piu urgente.

Sitemap non dichiarata

Severita: Bassa / Media

Il file esiste ma non contiene alcun riferimento alla Sitemap XML. Non e un errore, ma aggiungerla aiuta la scoperta dei nuovi contenuti.

Tip: un robots.txt mancante non e quasi mai urgente. Un robots.txt che risponde con un errore di server, come 5xx o 429, si: in quel caso conviene controllarlo prima di ogni altra cosa.

Future Enhancements: finding piu granulari, come blocchi totali del sito, blocchi di asset CSS/JS o sintassi non valida, possono rientrare in evoluzioni future del check ma non vanno dati per scontati nella versione attuale.

Azione consigliata

File irraggiungibile (5xx/429): verificare subito lo stato del server.
File assente (404/410): decidere se pubblicarlo, soprattutto se vuoi dichiarare chiaramente la Sitemap.
Sitemap non dichiarata: aggiungerla quando fai il prossimo aggiornamento tecnico del sito.

Come risolvere

Soluzione rapida con CyberLens

Se CyberLens segnala che il file robots.txt e assente, puoi usare il generatore integrato per creare un file standard di partenza.

Il file generato contiene una configurazione semplice e adatta alla maggior parte dei siti:

User-agent: *
Disallow:
Sitemap: https://esempio.com/sitemap.xml

Dopo averlo scaricato, caricalo nella root pubblica del sito, in modo che sia raggiungibile da:

https://tuodominio.it/robots.txt

Se non gestisci direttamente i file del sito, invia il contenuto al tuo webmaster o al provider di hosting.

WordPress

Assicurati che il file non blocchi admin-ajax.php, usato da molti plugin e temi per caricare contenuti dinamici:

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Se usi un plugin SEO, verifica che generi correttamente la direttiva Sitemap.

Sito statico

Crea un file robots.txt e posizionalo nella cartella root pubblicata del sito, non in sottocartelle. Esempio minimo:

User-agent: *
Disallow:
Sitemap: https://esempio.com/sitemap.xml

Apache / Pannello di hosting

Se il file restituisce un errore 5xx o 429:

controlla i log del server per individuare la causa;
verifica che il modulo di sicurezza o il WAF non blocchi le richieste dei crawler legittimi;
conferma che il robots.txt non sia protetto da autenticazione o da regole che restituiscono errori ai bot.

Nginx / Configurazione server

verifica che il blocco location per /robots.txt non restituisca errori o redirect non necessari;
controlla eventuali regole di rate-limiting che potrebbero rispondere 429 ai crawler;
assicurati che il file sia servito dalla root corretta del sito.

Info (utenti non tecnici): se il robots.txt restituisce un errore 5xx o 429 e non gestisci tu il server, non devi modificare nulla da solo. Contatta il tuo provider di hosting, segnala che il file robots.txt risponde con un errore del server e chiedi una verifica: e il modo piu rapido e sicuro per risolvere.

Warning: Google segue un redirect del robots.txt fino a un massimo di 5 passaggi. Se il redirect li supera o fallisce, il file viene trattato come un errore 404.

Come appare in CyberLens

Nel report di scansione, il finding sul robots.txt viene mostrato con:

l'indicazione se il file e presente o assente;
lo status HTTP rilevato al momento della scansione;
una anteprima del contenuto del file, quando il robots.txt e raggiungibile;
l'eventuale presenza o assenza del riferimento alla Sitemap;
la severita calcolata in base al tipo di risultato osservato oggi, cioe assenza del file, errore server o mancanza del riferimento alla Sitemap.

Quando il file robots.txt e assente, CyberLens puo proporre un generatore semplice per creare un file robots.txt di base da scaricare e caricare sul sito.

Nota: nella versione attuale, CyberLens non va descritto come un parser completo del file riga per riga: l'obiettivo di questa schermata e offrire una lettura rapida e utile del risultato, non un debug avanzato del protocollo REP.