One.tumbapi è un semplicissimo tool che spiderizza un indirizzo web, trova i collegamenti in uscita e, una volta elencatili, è possibile cliccare su ognuno per spiderizzare l'indirizzo cliccato alla ricerca del primo collegamento. Questa procedura ti permette di sapere se il sito B ha un collegamento in primo grado al sito A. Semplice, vero? come la teoria dei 6 gradi di separazione, ma in un solo grado :) In realtà è stata la copertura di un esperimento che a più di un anno dal lancio, e a risultati chiari, posso rivelare.
One.tumbapi è un esperimento finanziato interamente da Google! Eh sì, con gli introiti degli annunci di Google AdSense sono riuscito a coprire i costi: hosting e una notte di manovalanza. :)
Per cosa? Per capire meglio GoogleBot e dimostrare la verità su alcuni miti dell'indicizzazione di Google.
L'esperimento
Il tutto è nato più di 2 anni fa da una conversazione con Pieropan quando lavoravamo insieme in TSW. "Google utilizza i dati della Toolbar per indicizzare le pagine?", " No!" era la risposta. Perfino Philipp Lenssen nel 2006 ha sfidato Matt Cutts dimostrando però che ancora una volta Matt aveva ragione, Google non indicizza le pagine utilizzando i dati prelevati dalla Toolbar. L'esperimento di Lenssen era però molto semplice, si è arreso dopo solo 4 mesi. Io invece ho aspettato un anno.
One.tumpabi non ha una struttura (ci sono solo 2 pagine), non ha contenuti, ha soltanto due collegamenti in uscita (980km.com e Technorati). Le pagine vengono create al volo dall'utente e una volta abbandonata la sessione le pagine scompaiono senza lasciare tracce.. pagine dinamiche, insomma, che Googlebot non è in grado di creare. Volevo un sito che nessuno avrebbe mai linkato spontaneamente, infatti ha pochi link in entrata, un sito dove l'utente una volta fatto quello che deve fare non lo rivisita più evitando così la ricorrenza di utenti provenienti dallo stesso IP (ecco perché la percentuale di visite nuove risulta pari al 90% circa). Non ho utilizzato Aggiungi la tua URL di Google, non ho utilizzato Google Webmaster Tool, insomma un "pessimo" progetto per raggiungere qualche risultato organico.
Pagine che non esistono, link popularity pressoché inesistente, contenuti "zero", e nonostante ciò:
• 7.380/+12.000 pagine indicizzate in Google,
• traffico da Google Organico pari al 90% (Live e Yahoo non sanno ancora niente dell'esperimento :) )
• 9.719 visite in un anno
• frequenza di rimbalzo intorno al 65%
• 4.187 parole chiave nella long tail
• pagerank = 3
• ma come?!?! :)
Beh, ci sono solo 3 possibilità dato che su One.tumbapi si eseguono 3 chiamate a Google.
1.- Google Toolbar
2.- Google AdSense
3.- Google Analytics
Lascio a voi le riflessioni del caso, la cosa certa è che GoogleBot è in trappola :)
Quello che mi fa pensare che il progetto sia ben riuscito è il fatto che delle 7.380/+12.000 pagine da Google indicizzate (tutte parametriche tra l'altro) io ne conoscevo soltanto 2, quindi non ho contaminato l'esperimento, Google ha fatto tutto da solo. Mi dispiace però che con tutto il lavoro di 980km non sia riuscito a raggiungere almeno alcuni degli obbiettivi che in one.tumbapi si verificano avendo soltanto lavorato poche ore sviluppando il tool. Mi sa che svilupperò i 6 gradi :)
Commenti
Linkando/pingando Technorati, con il link di ingresso da 980km.com ed altri link che menzioni tu, mi sembra nella norma come dinamica.
E' piuttosto il numero di pagine dal site: che lascia perplessi.
il tuo test è senz'altro un buon punto di partenza ma così come i dati sono stati esposti in questo post, a mio avviso, sono incompleti e potenzialmente "viziati".
Una delle prime considerazioni che condivido è quella di Marco, quando afferma
> Come possiamo dire che usa la toolbar in presenza di altri due elementi?
In effetti, non è possibile comparare il tuo test con quello di Danny. Nel tuo caso i valori sono "viziati" da altri due fattori non di poco conto come Analytics ma soprattutto AdSense.
In particolare quest'ultimo. Ci sono due aspetti da considerare.
1. Google deve leggere la pagina che contiene AdSense per analizzarne il contenuto dunque per ogni accesso dell'utente il crawler AdSense accede alla pagina, anche se si tratta solo di stesso path con differente querystring.
2. Googlebot e GoogleAds possono condividere la stessa cache. E' confermato che, in alcuni casi, Googlebot non accede ad una pagina per analizzarne il contenuto quando la stessa è già stata scaricata in precedenza dal bot di AdSense. Ovviamente questo non significa che una pagina ignota possa essere indicizzata solo perché ha AdSense, ma è un altro spunto di riflessione da considerare.
A questo punto è quanto mai essenziale riuscire a scremare ulteriormente i dati. Tanto per cominciare, valuterei per ogni pagina indicizzata, dai log, se è stato registrato un accesso di Googlebot o solo del bot di AdSense. Nel secondo caso, non avremo la certezza di Analytics o Toolbar ma senz'altro quella di AdSense. :)
PS. Anche Yahoo! lo conosce
http://siteexplorer.search.yahoo.com/search?p=http%3A%2F%2Fone.tumbapi.com%2F&bwm=p&bwms=p&fr=siteexplorer&fr2=seo-rd-se
Cusioso in particolare il risultato one.tumbapi.com/1g/?u=afp.google.com/article/...
Cmq, il numero di pagine è davvero enorme...
@Marco Cilia: le pagine non esistono, vengono create al volo alla richiesta compilando il form e possono farlo solo gli "umani" anzi, è meglio dire che Googlebot non lo fa. Non esistono perché non c'è nessun link che chiami queste pagine (come accade con pagine parametriche che chiamano record da un DB) e una volta chiusa la pagina non remane traccia della loro esistenza. Non ci sono quindi sitemap o mappa del sito che permettano ricreare la pagina che ha generato il visitatore. A questo punto secondo me lo scenario è ideale, ci sono solo queste 3 chiamate a Google. A posta ho citato le 3 possibilità lasciando a voi le considerazione.
Vuol dire allora che basta aggiungere Google Analytics per ottenere un'indicizzazione permanente come quella su one.tumbapi?...
@Simone Carletti: "Viziati" si, troppo Google :). Come dicevo a Marco Cilia, a posta ho citato le 3 possibilità e a voi le considerazioni.
Mi fa piacere leggere nel tuo commento che il crawler di AdSense analizza il contenuto, mi dispiace dirti però che i contenuti su one.tumbapi sono scarsi troppo scarsi a mio avviso degni di una penalizzazione se quello che cerca AdSense sono contenuti di qualità. Intendi dire allora che basta inserire qualche annuncio AdSense per avere un risultato di questo tipo?
Per carità, io non dico di avere ragione e il titolo del post non è: Google indicizza dalla toolbar; l'esperimento di certo ci segnala uno o più di un "colpevole" tra questi 3. Continuerò lo stesso la mia ricerca e la condivisione dei risultati, magari a qualcuno potrebbe servire. Ora sono certo che nella top 10 della indicizzazione questi 3 sono nella TOP 3 :D Siccome non si possono inserire AdSense su tutti tipi di progetti, rimangono due... e se qualcuno non vuole usare Analytics.... :D
Ti posso garantire che quando ho scritto il post circa 15 giorni fa non c'era nessun risultato su Yahoo e cmq 6 contro +12.000 mi sembrano troppo pochi.
@all: ringrazio tanto per i commenti, mi piacciono vostro le vostre opinioni.
ps. su mygoowall.com utilizzo altri fattori (ho tolto AdSense) ci leggiamo tra un'anno... :)
volevo dare una piccola nota/provocazione sempre sul fatto delle pagine che non esistono: sono d'accordo con marco quando dice che "se sono pagine parametriche, esistono quando gli si passa un parametro".
Segnalo comunque che anche nel mio blog la "ricerca" non è stato mai linkata (a meno che qualcuno non lo abbia fatto, ma non ho cercato in modo approfondito): in pratica mi sono ritrovato nella serp, come successo a te, centinaia di link contenenti la stringa di ricerca vera e propria, come se qualcuno avesse linkato la ricerca interna del mio blog direttamente. I casi a questo punto sono due:
1) qualcuno ha linkato il mio blog con l'inidirizzo delle ricerche interne;
2) google è in grado di compliare i form e di fare le ricerche.
Se applichiamo il ragionamento del caso 2 al fatto che google memorizza gli url da analytics/adsense/toolbar, questo può avere un suo effetto e spiegare l'arcano:
- un utente umano fa la ricerca,
- google memorizza la nuova pagina,
- google la resituisce in serp,
E se devo essere sincero, conoscendo le capacità e le potenzialità del nostro pollo (google :-D ) temo sia proprio questo quello che accade...
una domanda che ti butto lì per aggiungere carne al fuoco:
più che analytics o Toolbar, secondo me un'ulteriore ipotesi potrebbe essere l' invio automatizzato del bot di parametri nella form che hai nella pagina di one.tumbapi.
Google compila form in automatico e probabilmente Google le stimola per trovare ciò che è 'nascosto' dietro le form, così come fa nel search del sito.
Hai provato a fare un confronto tra le pagine indicizzate e quelle realmente navigate dagli utenti?
Potresti magari scoprire che molte pagine indicizzate non sono mai state viste da user-agent umani...
Concordo con Simone, il test potrebbe dare ulteriori e più sicure indicazioni, se non ci fossero ne Google Analytics, ne AdSense, perché anche secondo me questi due inquinano.
Se andiamo a vedere come è fatto lo script di Google Analytics, se questo fosse su una pagina dinamica dinamica dinamica, potrebbe comunque lasciare la sua URL a Google che se volesse potrebbe comunque tentare di visitarla (e poi bisogno capire il sito che risponde. Faccio un esempio.
Vado su Tumbapi e chiedo la spiderizzazione di www.yoyoformazione.it
Arrivo su una pagina che ha la url http://one.tumbapi.com/?u=www.yoyoformazione.it e che contiene lo script di Google Analytics.
Questa url se la copio/incollo in una nuova sessione di browser non mi porta ad un 404, ma ad una pagina effettiva di Tumbapi.
In sostanza, così dimostriamo che se volesse Google potrebbe conservare le url, potrebbe cercarle, qualcosa troverebbe e se volesse potrebbe mettere in SERP. Ovviamente che lo faccia è un altro discorso. Però può farlo.
Dato che secondo me Google a grande interesse ad allungare le SERP, non certo ad accorciarle, e visto che su queste pagine ci sono AdSense (da cui lui guadagna), dovendo votare senza provare, voterei per il fatto che lo farà :p
Ecco, la prima cosa che mi viene in mente, è che da tutte le pagine dinamiche oggetto dell'esperimento, Google Analytics dovrebbe essere tolto (e come dicevo, meglio ancora da tutto il sito).
Lo dico, pur essendo tra quelli, ripeto, che sono a favore dell'indicizzazione.
Una bella analisi dei log e relativi user-Agent dovrebbe svelare l'arcano ... tra l'altro mi pare proprio che Google stesso ci abbia confidato che prova a fare questo tipo di attività ;)