Cos’è
Una sitemap XML è un file in UTF-8 che segue il Sitemaps Protocol ed elenca gli URL pubblici del sito, insieme a metadati come la data dell’ultima modifica (<lastmod>). Può includere estensioni per immagini, video e versioni multilingua (hreflang).
In pratica, il file deve essere servito correttamente dal sito e puntare agli URL pubblici che vuoi rendere più facili da scoprire.
Nota Tecnica: se il sito supera i 50.000 URL o i 50 MB per file (non compresso), è necessario un Sitemap Index, cioè un file che elenca a sua volta i percorsi di più sitemap più piccole. Per la maggior parte dei siti questo non è un problema da gestire manualmente: i generatori automatici (incluso quello di CyberLens) lo fanno da soli quando serve.
Sitemap e robots.txt
Sono due file diversi con ruoli complementari:
- la sitemap dice ai crawler “queste pagine esistono ed ecco quando sono state aggiornate”;
- il robots.txt dice “puoi/non puoi scansionare questo percorso”.
La best practice è dichiarare la sitemap dentro il robots.txt, con una riga indipendente dai blocchi User-agent:
Sitemap: https://esempio.com/sitemap.xml
Se un URL è presente in sitemap ma bloccato da Disallow o segnato noindex, il segnale è contraddittorio: la sitemap dice “scoprila”, il robots.txt o il tag dicono “non guardarla”. Questo caso va sempre corretto.
Perché è Importante
- Aiuta la discovery, soprattutto per pagine non collegate da altri link interni.
- Non garantisce l’indicizzazione: Google può ignorare un URL in sitemap se lo ritiene di scarsa qualità o duplicato.
- Non influisce sul ranking: essere in sitemap non dà alcuna spinta diretta nel posizionamento.
- Non sostituisce i link interni: una sitemap non compensa una struttura di navigazione frammentata.
Info: per i siti piccoli e ben collegati internamente, i crawler moderni riescono spesso a scoprire le pagine anche senza sitemap. È più utile per:
- siti grandi o in forte crescita, dove la sitemap aiuta i crawler a trovare più rapidamente gli URL importanti;
- e-commerce con catalogo dinamico;
- siti nuovi o con pochi backlink, dove la sitemap è spesso l’unico canale di discovery iniziale;
- pagine profonde o isolate (es. archivi storici);
- siti ricchi di immagini/video che vogliono comparire su Google Images/Video;
- siti multilingua, per mappare le relazioni
hreflang.
Come CyberLens lo Controlla
CyberLens verifica:
- la presenza del file nei percorsi standard (
/sitemap.xml,/sitemap_index.xml) e il riferimento nelrobots.txt; - lo status HTTP dell’URL della sitemap (o dell’indice);
- una anteprima del contenuto rilevato, per verificare rapidamente che il file sia quello atteso.
Future Enhancements: validazione completa della sintassi XML, verifica puntuale degli URL interni, controlli su URL bloccati/noindex e supporto avanzato per estensioni immagini/video possono essere aggiunti in evoluzioni future.
Possibili Risultati
Ogni finding è indipendente: puoi andare direttamente a quello segnalato nel tuo report.
Sitemap assente
Severità: Media (Bassa per siti piccoli)
Non è stato rilevato alcun file sitemap nei percorsi standard, né un riferimento nel robots.txt. Per un sito piccolo e ben collegato non è urgente; per siti grandi, nuovi o con pochi backlink può rendere meno immediata la scoperta dei nuovi contenuti.
Sitemap non dichiarata nel robots.txt
Severità: Bassa / Media
La sitemap esiste, ma i crawler non hanno una riga Sitemap: nel robots.txt come punto di scoperta standard. Non è l’unico modo per far conoscere la sitemap ai motori di ricerca, ma resta il canale più semplice e immediato, senza bisogno di una sottomissione manuale in Search Console.
URL della sitemap irraggiungibile (4xx / 5xx)
Severità: Alta / Critica L’URL della sitemap (o dell’indice) restituisce un errore. I bot non possono accedere alla lista di discovery.
Tip: una sitemap assente su un sito piccolo e ben collegato non è quasi mai urgente. Una sitemap irraggiungibile sì: in quei casi conviene intervenire prima.
Future Enhancements: i controlli su sintassi XML, URL non-200, URL bloccati/noindex, sitemap di staging,
<lastmod>incoerente e tag ignorati da Google sono candidati per evoluzioni future del controllo.
Azione Consigliata
La priorità dipende dal finding:
- URL sitemap irraggiungibile (4xx/5xx): verificare subito l’accessibilità del file.
- Sitemap assente: generarla o ripristinarla.
- Sitemap non dichiarata nel robots.txt: aggiungere la riga
Sitemap:se il sito la usa.
Come Risolvere
Tip: se non hai già una sitemap, il modo più rapido è generarla direttamente da CyberLens: lo strumento integrato crea un file
sitemap.xmlstandard a partire dalle pagine rilevate durante la scansione. È un punto di partenza utile, ma può non includere tutto il sito se il crawl è limitato dal piano o dalla profondità.
WordPress
Dalla versione 5.5, WordPress genera nativamente una sitemap all’indirizzo /wp-sitemap.xml. Se usi un plugin SEO (es. Yoast, RankMath), la sitemap nativa viene disabilitata automaticamente per evitare conflitti: in questo caso usa la sitemap generata dal plugin. Se il sito si basa molto su contenuti visivi, verifica anche le impostazioni relative a immagini e media.
Sito Statico
Genera il file durante il processo di build (es. plugin del framework in fase di compilazione CI/CD), così la sitemap resta sempre sincronizzata con le pagine realmente pubblicate. Esempio minimo di voce:
<url>
<loc>https://esempio.com/pagina</loc>
<lastmod>2026-06-18</lastmod>
</url>
CMS / E-commerce
Escludi gli URL di sistema con parametri dinamici (filtri, ID di sessione, tracciamento) e assicurati che i prodotti rimossi definitivamente dal catalogo vengano eliminati dalla sitemap in tempo reale, non solo disattivati.
Hosting / Server
Se l’URL della sitemap restituisce un errore:
- verifica i permessi del file XML sul server;
- controlla che l’URL sia scritto esattamente (case-sensitive);
- se il sito supera i limiti di dimensione (50.000 URL o 50 MB), verifica che sia in uso un Sitemap Index che punta correttamente alle sitemap nidificate.
Warning: non aggiornare artificialmente la data in
<lastmod>se la pagina non ha subito modifiche reali. Google può smettere di considerare affidabile il valore<lastmod>se rileva discrepanze sistematiche tra le date dichiarate e i cambiamenti effettivi.
Come Appare in CyberLens
Nel report di scansione, il finding sulla sitemap viene mostrato con:
- lo status HTTP rilevato per l’URL della sitemap;
- la severità calcolata in base al tipo di problema (assenza, non dichiarata nel
robots.txt, irraggiungibilità); - un’anteprima del contenuto della sitemap rilevata;
- l’opzione per generare una sitemap direttamente dallo strumento, se il finding è “Sitemap assente”.
Guide Correlate
- Gestione del file robots.txt
- Gestione del tag noindex
- Controllo del crawl budget
- Struttura dei link interni