Documentazione CyberLens

Sitemap.xml

Guida pratica per capire quando una sitemap aiuta davvero la scoperta dei contenuti, come CyberLens la legge oggi e quando conviene intervenire.

English version
Severity
Informational
Tempo stimato
5-15 min
Livello tecnico
Beginner / Intermediate
Si applica a
WordPressStatic SitesCMS / E-commerceHosting

Cos’è

Una sitemap XML è un file in UTF-8 che segue il Sitemaps Protocol ed elenca gli URL pubblici del sito, insieme a metadati come la data dell’ultima modifica (<lastmod>). Può includere estensioni per immagini, video e versioni multilingua (hreflang).

In pratica, il file deve essere servito correttamente dal sito e puntare agli URL pubblici che vuoi rendere più facili da scoprire.

Nota Tecnica: se il sito supera i 50.000 URL o i 50 MB per file (non compresso), è necessario un Sitemap Index, cioè un file che elenca a sua volta i percorsi di più sitemap più piccole. Per la maggior parte dei siti questo non è un problema da gestire manualmente: i generatori automatici (incluso quello di CyberLens) lo fanno da soli quando serve.

Sitemap e robots.txt

Sono due file diversi con ruoli complementari:

La best practice è dichiarare la sitemap dentro il robots.txt, con una riga indipendente dai blocchi User-agent:

Sitemap: https://esempio.com/sitemap.xml

Se un URL è presente in sitemap ma bloccato da Disallow o segnato noindex, il segnale è contraddittorio: la sitemap dice “scoprila”, il robots.txt o il tag dicono “non guardarla”. Questo caso va sempre corretto.

Perché è Importante

Info: per i siti piccoli e ben collegati internamente, i crawler moderni riescono spesso a scoprire le pagine anche senza sitemap. È più utile per:

  • siti grandi o in forte crescita, dove la sitemap aiuta i crawler a trovare più rapidamente gli URL importanti;
  • e-commerce con catalogo dinamico;
  • siti nuovi o con pochi backlink, dove la sitemap è spesso l’unico canale di discovery iniziale;
  • pagine profonde o isolate (es. archivi storici);
  • siti ricchi di immagini/video che vogliono comparire su Google Images/Video;
  • siti multilingua, per mappare le relazioni hreflang.

Come CyberLens lo Controlla

CyberLens verifica:

Future Enhancements: validazione completa della sintassi XML, verifica puntuale degli URL interni, controlli su URL bloccati/noindex e supporto avanzato per estensioni immagini/video possono essere aggiunti in evoluzioni future.

Possibili Risultati

Ogni finding è indipendente: puoi andare direttamente a quello segnalato nel tuo report.

Sitemap assente

Severità: Media (Bassa per siti piccoli) Non è stato rilevato alcun file sitemap nei percorsi standard, né un riferimento nel robots.txt. Per un sito piccolo e ben collegato non è urgente; per siti grandi, nuovi o con pochi backlink può rendere meno immediata la scoperta dei nuovi contenuti.

Sitemap non dichiarata nel robots.txt

Severità: Bassa / Media La sitemap esiste, ma i crawler non hanno una riga Sitemap: nel robots.txt come punto di scoperta standard. Non è l’unico modo per far conoscere la sitemap ai motori di ricerca, ma resta il canale più semplice e immediato, senza bisogno di una sottomissione manuale in Search Console.

URL della sitemap irraggiungibile (4xx / 5xx)

Severità: Alta / Critica L’URL della sitemap (o dell’indice) restituisce un errore. I bot non possono accedere alla lista di discovery.

Tip: una sitemap assente su un sito piccolo e ben collegato non è quasi mai urgente. Una sitemap irraggiungibile sì: in quei casi conviene intervenire prima.

Future Enhancements: i controlli su sintassi XML, URL non-200, URL bloccati/noindex, sitemap di staging, <lastmod> incoerente e tag ignorati da Google sono candidati per evoluzioni future del controllo.

Azione Consigliata

La priorità dipende dal finding:

  1. URL sitemap irraggiungibile (4xx/5xx): verificare subito l’accessibilità del file.
  2. Sitemap assente: generarla o ripristinarla.
  3. Sitemap non dichiarata nel robots.txt: aggiungere la riga Sitemap: se il sito la usa.

Come Risolvere

Tip: se non hai già una sitemap, il modo più rapido è generarla direttamente da CyberLens: lo strumento integrato crea un file sitemap.xml standard a partire dalle pagine rilevate durante la scansione. È un punto di partenza utile, ma può non includere tutto il sito se il crawl è limitato dal piano o dalla profondità.

WordPress

Dalla versione 5.5, WordPress genera nativamente una sitemap all’indirizzo /wp-sitemap.xml. Se usi un plugin SEO (es. Yoast, RankMath), la sitemap nativa viene disabilitata automaticamente per evitare conflitti: in questo caso usa la sitemap generata dal plugin. Se il sito si basa molto su contenuti visivi, verifica anche le impostazioni relative a immagini e media.

Sito Statico

Genera il file durante il processo di build (es. plugin del framework in fase di compilazione CI/CD), così la sitemap resta sempre sincronizzata con le pagine realmente pubblicate. Esempio minimo di voce:

<url>
  <loc>https://esempio.com/pagina</loc>
  <lastmod>2026-06-18</lastmod>
</url>

CMS / E-commerce

Escludi gli URL di sistema con parametri dinamici (filtri, ID di sessione, tracciamento) e assicurati che i prodotti rimossi definitivamente dal catalogo vengano eliminati dalla sitemap in tempo reale, non solo disattivati.

Hosting / Server

Se l’URL della sitemap restituisce un errore:

Warning: non aggiornare artificialmente la data in <lastmod> se la pagina non ha subito modifiche reali. Google può smettere di considerare affidabile il valore <lastmod> se rileva discrepanze sistematiche tra le date dichiarate e i cambiamenti effettivi.

Come Appare in CyberLens

Nel report di scansione, il finding sulla sitemap viene mostrato con:

Guide Correlate