La risposta è sì! è 'costretto' a farlo. L'Html, come si legge su wikipedia, è il linguaggio predominante nelle pagine web, è per questo che Google preferisce i contenuti del tipo text/html. Si sa che i motori di ricerca sono in grado di indicizzare diversi tipi di contenuti e documenti, dal txt/html al .doc passando per i txt/xml, txt/plain, ecc.
Cercando la parola 'sitemap' e nonostante la crescente diffusione del formato sitemap.xml, tutti i risultati forniti da Google sono in formato txt/html.
L'estensioni
Per quanto riguarda i documenti fisici c'è poco da fare, un file xml ad esempio avrà una estensione .xml e uno in html l'estensione .html | .htm, come preferite. Per i file generati dinamicamente non ci sono problemi se usano l'estensione .asp | .php ecc.; a mio avviso però seguire la logica dei file fisici, cioè, ognuno con l'estensione corrispondente, è una pratica se non altro 'elegante'. :) Il tutto dipenderà alla fine dal content-type non dall'estensione.
C'è una differenza determinante tra una pagina web generata dinamicamente e un file statico. Mi riferisco al parametro Last-modified che la generazione dinamica (anche se potrebbe essere falsato) non fornisce alla chiamata HTTP. Mi spiego, un file fisico quando viene chiamato via http fornisce il parametro Last-modified come la data dell'ultima modifica. Questo parametro 'potrebbe' essere interpretato così dai motori di ricerca:
1.-File di vecchia datazione + alto traffico + inbound links = high trust
2.-File di vecchia datazione + poco o niente traffico + niente link in entrata = low trust
A questo punto è ovvio: il motore di ricerca porterà il secondo caso in fondo ai risultati dando preferenza al contenuto di vecchia datazione che conta un bel numero di link in entrata e genera traffico. Invece un vecchio file, che nessuno ha mai linkato e mai visitato, sarà allora catalogato come contenuto senza importanza per occupare posizioni di rilievo nelle SERP.
I file generati dinamicamente non fornisco il parametro Last-modified, solo il parametro Date che equivale alla data della richiesta HTTP, cioè il momento attuale. Per i motori di ricerca potrebbe significare: questo file è sempre in aggiornamento ed essere una buona cosa, ma potrebbe anche voler dire: questo file non ha anzianità, non posso datarlo e assegnare un trust condizionato dalla datazione. Cosa fare? Nella maggior parte dei casi il contenuto che mostra la pagina 'dinamica' arriva da un database, nel record ci saranno (mi auguro) i campi data_di_creazione e data_ultima_modifica, con i dati del traffico e degli inbound link a disposizione potresti impostare il parametro Last-modified a seconda del Trust che vorresti guadagnare. Complicato? Ne vale la pena? :)
Commenti
Io ho notato che spesso si posizionano prima di equivalenti html
valuti la possibilità di modificare i parametri dell'header HTTP relativi alla data di creazione e di ultima modifica, io al posto del software del motore non mi farei influenzare dalle indicazioni dei webmaster e mi affiderei alle informazioni che riesco a determinare (vedi data di creazione = data di indicizzazione o modifica = quando rilevo modifiche sostanziali rispetto alla cache).
Concordo 'ovviamente' su "Google preferisce l'OUTPUT html"
a presto