Casa / Internet / Un modo rapido per controllare l'indicizzazione delle pagine in Yandex e Google. Indice di ricerca È la pagina indicizzata

Un modo rapido per controllare l'indicizzazione delle pagine in Yandex e Google. Indice di ricerca È la pagina indicizzata

In questo manuale considereremo la questione dell'aggiunta del nostro nuovo sito per l'indicizzazione ai vari motori di ricerca.

Ho deciso di citare sia i motori di ricerca popolari che quelli di cui potresti non aver sentito parlare.

Indicizzazione del sito in Yandex

Per aggiungere un sito per l'indicizzazione, basta inserire l'url della pagina principale e captcha. Un captcha sono alcuni numeri che proteggono dalle registrazioni automatiche. Dopo aver fatto clic sul pulsante "aggiungi", sono possibili diverse opzioni per lo sviluppo di eventi.

1) Il messaggio "il tuo sito è stato aggiunto" indica che la risorsa è stata aggiunta correttamente alla coda per l'indicizzazione in Yandex.
2) Se viene visualizzato il messaggio "Il tuo hosting non risponde", significa che il tuo server è inattivo in questo momento. Puoi provare ad aggiungere un sito in un secondo momento o trovare un hosting migliore.
3) Ma se appare un messaggio che "l'URL specificato è vietato per l'indicizzazione", allora le cose vanno male. Ciò indica che sono state imposte sanzioni alla tua risorsa sotto forma di divieto del sito. È del tutto possibile che il dominio che hai acquistato già una volta avesse un sito che ha ricevuto sanzioni. Usando addurl, i webmaster controllano spesso i siti per un divieto in Yandex.

Indicizzazione del sito in Google (Google)

Il prossimo più importante per il nostro sito è il motore di ricerca sistema Google(Google). Il processo di aggiunta di un sito all'indicizzazione in Google è esattamente lo stesso di Yandex. Google ha anche il proprio adurilka, che si trova in: https://www.google.com/webmasters/tools/submit-url.

Devi anche inserire un captcha durante l'aggiunta. Ma ci sono due differenze. Se in Yandex puoi semplicemente aggiungere un URL senza gesti non necessari, in Google devi accedere al tuo account. Altrimenti non funzionerà. Di conseguenza, se non hai ancora un account lì, dovrai crearne uno. La seconda differenza tra Google e Yandex è la velocità di indicizzazione. Google indicizza i siti Web molto rapidamente.

Indicizzazione del sito in Rambler (Rambler.ru)

Ovviamente, Rambler non è più quello di una volta, come molti diranno, e dà un bel po' di traffico. E comunque, perché ignorarli? Il processo di indicizzazione del sito in Rambler è il più lungo, tra gli altri motori di ricerca domestici. Sì, e la sua adurilka non funziona da molto tempo, era su: robot.rambler.ru/cgi-bin/addsite.cgi

Utilizza da molto tempo il database di ricerca Yandex. Pertanto, per entrare nell'indice Rambler.ru, è sufficiente aggiungersi a Yandex.

Indicizzazione del sito in Mail.ru (Mail)

Il motore di ricerca Mail.ru ha anche un ufficio del webmaster. L'aggiunta di un sito per l'indicizzazione in Mail.ru avviene tramite il modulo addurl, che si trova in: go.mail.ru/addurl

Inoltre, come con Google, per creare un'applicazione per l'indicizzazione, è necessario creare il proprio account e accedervi. Altrimenti non funzionerà. Ultimamente Mile ha cercato di sviluppare i suoi strumenti per i webmaster.

Sopra, abbiamo esaminato i principali motori di ricerca domestici in cui vorremmo indicizzare il nostro sito. I seguenti PS sono più per la tua erudizione SEO generale che per azioni specifiche.

Motore di ricerca Aport.ru (Aport)

Aport.ru una volta era un motore di ricerca, con una propria base di indici e adurilka. Ora ne hanno ricavato un motore di ricerca di prodotti, in cui è possibile confrontare i prezzi di beni e servizi.

Motore di ricerca Nigma.ru (Nigma)

Nigma.ru è il nostro motore di ricerca intelligente russo. Il volume totale del suo traffico è di circa tre milioni di richieste al giorno. Ovviamente non va trascurato il traffico proveniente da Nigma. Puoi aggiungere il tuo sito per l'indicizzazione in Nigma su nigma.ru/index_menu.php?menu_element=add_site.

Navigatore multimediale Tagoo.ru

Il sistema Tagoo.ru è un motore di ricerca multimediale che ricerca i dati multimediali. Questi sono contenuti musicali, video e programmi. Affinché il tuo sito venga indicizzato dal sistema Tagoo, devi utilizzare il modulo di aggiunta: tagoo.ru/ru/webmaster.php?mode=add_site.

Motore di ricerca Turtle.ru (Tartaruga)

Il motore di ricerca internazionale Turtle (Turtle) cerca i paesi della CSI in qualsiasi lingua. Le risorse che si trovano in zone di dominio come: ru, su, ua, am, az, ge, by, kz, kg, uz, md sono accettate per l'indicizzazione. Per aggiungere un sito per l'indicizzazione nella tartaruga, devi usare l'adurilla: http://www.turtle.ru/add.html . Si consiglia di attendere un messaggio di accettazione del proprio sito. Potresti non aggiungere, ma non lo saprai.

Motori di ricerca esteri

Se i motori di ricerca nazionali erano sopra, sotto ci sarà un elenco di motori di ricerca stranieri.

Motore di ricerca Yahoo.com (Yahoo)

Motore di ricerca Bing.com (Bing)

motore di ricerca Sistema Bing di proprietà di Microsoft Corporation ed è stato creato per sostituire Live Search. Microsoft spera che il nuovo frutto di un'idea sia molto più popolare del suo predecessore. Se desideri che il tuo sito Bing.com venga indicizzato, puoi farlo all'indirizzo http://www.bing.com/toolbox/submit-site-url .

Motori di ricerca ucraini

E in conclusione della mia recensione, fornirò due popolari motori di ricerca in Ucraina.

Motore di ricerca ucraino Meta.ua (Meta)

È molto importante che tutte le pagine del tuo sito siano indicizzate motori di ricerca(Yandex, Google, ecc.).

  • In primo luogo, se la pagina non è nell'indice, le persone non saranno in grado di trovarla e hai perso tempo (e possibilmente denaro) nella sua creazione, riempimento e progettazione. Ogni pagina nell'indice è una fonte di visitatori.
  • In secondo luogo, se la pagina non è nell'indice, ciò potrebbe indicare problemi tecnici sul sito, come contenuti duplicati, problemi del sito o dell'hosting.
  • In terzo luogo, questa pagina può svolgere un ruolo tecnico, ad esempio partecipare a uno schema di collegamento (o contenere collegamenti a pagamento per i quali non riceverai denaro se la pagina non è nell'indice).

Lavorando con i clienti, ho riscontrato più volte il fatto che a causa di problemi con l'indicizzazione c'erano cattive posizioni. Questo problemi tecnici, che di solito correggo nel primo mese di collaborazione, a causa del quale, dal 2° mese, c'è un notevole aumento di visitatori e posizioni.

Di seguito considererò i modi manuali e automatizzati per controllare l'indicizzazione delle pagine in Yandex e Google. Ti mostrerò come controllare l'indicizzazione del sito web in generale e ogni pagina separatamente.

Come scoprire il numero di pagine del sito

Questo può essere fatto in diversi modi:

Ora che conosciamo il numero effettivo di pagine, dobbiamo verificare quante di esse sono indicizzate in Yandex e Google

Esaminiamo l'indicizzazione del sito nel suo insieme

In questo caso lo sapremo quante pagine del sito sono indicizzate nel motore di ricerca. Cosa ci dà questo? Conoscendo il numero effettivo di pagine del sito, possiamo confrontare se corrisponde al numero di pagine indicizzate. E se corrisponde, allora tutto è in ordine e, in caso contrario, devi affrontare il problema e scoprire quali pagine mancano (o quali pagine hanno duplicati).

Indicizzazione del sito in Yandex

Diversi modi.


Come puoi vedere i dati sono leggermente diversi. Ciò è dovuto al fatto che l'URL: costruzione del tuo sito mostra non solo pagine, ma altri tipi di file (doc, xls, jpg, ecc.). Il webmaster mostra esattamente il numero di pagine.

Indicizzazione del sito in Google

Qui, allo stesso modo con Yandex, ci sono 2 modi:

  • Utilizzo manuale del sito:costruzione del tuo sito. L'effetto sarà più o meno lo stesso di Yandex.
  • Utilizzo di Strumenti per i Webmaster di Google https://www.google.com/webmasters/(simile a Yandex.Webmaster)

modi automatici


Qual è il prossimo

Ora che sappiamo quante pagine del numero effettivo sono indicizzate, possono esserci 3 situazioni:

  1. Il numero di pagine nei motori di ricerca e sul sito è lo stesso. Questa è un'opzione ideale, quindi tutto è in ordine con il sito.
  2. Il numero di pagine indicizzate è inferiore. Significa che ci sono problemi con il sito (il problema più popolare è il contenuto non informativo o non univoco)
  3. Il numero di pagine indicizzate è maggiore. Molto probabilmente hai un problema con la duplicazione delle pagine, ad es. una pagina è accessibile da più indirizzi. Questo è un male per la promozione, perché il peso statico della pagina è sfocato e inoltre sono presenti molte pagine con contenuto ripetitivo.

Per diagnosticare ulteriormente il sito, dobbiamo sapere quali pagine sono accuratamente indicizzate e quali non sono incluse nell'indice.

Come controllare l'indicizzazione di una pagina

Potremmo averne bisogno quando vogliamo controllare una pagina specifica del nostro sito (ad esempio, pubblicata di recente) o una pagina del sito di qualcun altro (ad esempio, dove abbiamo acquistato un link e siamo in attesa che venga indicizzato)


Come controllare l'indicizzazione di tutte le pagine singolarmente

In questo caso, controlleremo tutte le pagine del sito per l'indicizzazione contemporaneamente e di conseguenza lo scopriremo quali pagine specifiche non sono indicizzate nel motore di ricerca.

Qui abbiamo bisogno di conoscere non solo il numero di pagine effettive del sito, ma anche un elenco degli indirizzi di queste pagine (i loro URL). Questa è probabilmente la parte più difficile di questo articolo. Sembrava che avessimo l'elenco delle pagine quando abbiamo generato la mappa del sito, ma gli indirizzi non sono nella loro forma pura e devi essere in grado di lavorare con una sorta di programma di elaborazione dati per estrarli. Pertanto, utilizzeremo un altro programma.

Come ottenere un elenco di tutte le pagine di un sito

Prima di raccogliere i collegamenti, è necessario configurare il parametro Exclude Patterns. Questo viene fatto per escludere collegamenti non necessari durante la raccolta, ad esempio, nel mio caso, quando si raccolgono molti indirizzi del modulo: https://website/prodvizhenie/kak-prodvigayut-sajjty.html? answertocom=324#respond che indicano un commento sulla pagina. E tutto ciò di cui ho bisogno è l'URL della pagina. Pertanto, ho impostato un'esclusione degli indirizzi tramite la maschera *replytocom*:

Successivamente, iniziamo a raccogliere gli URL e quando il programma finisce di raccoglierli, andiamo nella scheda Yahoo Map / Text e copiamo gli indirizzi da lì (il pulsante di salvataggio non funziona, perché utilizziamo versione gratuita programmi)

Ora abbiamo gli indirizzi di tutte le pagine.

Come controllare automaticamente l'indicizzazione delle pagine

Tutto è semplice qui. Dopo aver avviato il programma, aggiungi l'elenco degli URL del tuo sito raccolto nell'ultimo passaggio e aggiungili all'elenco degli URL iniziali. Il programma ti consente di controllare l'indicizzazione in Yandex, Google e Rambler, selezionare il motore di ricerca di cui abbiamo bisogno ed eseguire il controllo:

Dopo aver ottenuto un elenco di pagine che non erano incluse nell'indice, dobbiamo capire perché ciò è accaduto. Se tutto è in ordine con la pagina, per farla entrare nell'indice, puoi acquistare link ad essa o diversi retweet da account pompati.

Conclusione

La possibilità di controllare l'indicizzazione delle pagine del tuo sito ti consentirà di lavorare in modo più produttivo con i motori di ricerca, oltre a calcolare i problemi esistenti con il sito.

Che cos'è l'indicizzazione? Questo è il processo per ottenere il contenuto delle pagine del tuo sito sul robot e includerlo nei risultati di ricerca. Se passiamo ai numeri, il database del robot di indicizzazione contiene trilioni di indirizzi di pagine del sito. Ogni giorno il robot richiede miliardi di tali indirizzi.

Ma tutto questo grande processo di indicizzazione di Internet può essere suddiviso in piccoli passaggi:


Innanzitutto, il robot di indicizzazione deve sapere quando è stata visualizzata una pagina del tuo sito. Ad esempio, indicizzando altre pagine su Internet, trovando collegamenti o scaricando il set nemp. Abbiamo appreso della pagina, dopodiché prevediamo di bypassare questa pagina, inviare dati al tuo server per richiedere questa pagina del sito, ottenere il contenuto e includerlo nei risultati di ricerca.

L'intero processo è il processo di scambio del robot di indicizzazione con il tuo sito. Se le richieste inviate dal robot di indicizzazione praticamente non cambiano e cambia solo l'indirizzo della pagina, la risposta del tuo server a una richiesta di pagina da parte del robot dipende da molti fattori:

  • dalle impostazioni del tuo CMS;
  • dalle impostazioni del provider di hosting;
  • dal lavoro di un fornitore intermedio.

Questa risposta sta cambiando. Innanzitutto, quando si richiede una pagina, il robot riceve la seguente risposta di servizio dal tuo sito:


Queste sono intestazioni HTTP. Contengono varie informazioni di servizio che chiariscono al robot quale contenuto verrà trasmesso ora.

Voglio concentrarmi sulla prima intestazione: questo è un codice di risposta HTTP che indica al robot di indicizzazione lo stato della pagina richiesta dal robot.

Esistono diverse dozzine di tali stati di codici HTTP:


Parlerò del più popolare. Il codice di risposta più comune è HTTP-200. La pagina è disponibile, può essere indicizzata, inclusa nei risultati di ricerca, va tutto bene.

L'opposto di questo stato è HTTP-404. Sul sito manca la pagina, non c'è nulla da indicizzare, non c'è nemmeno nulla da includere nella ricerca. Quando si modifica la struttura del sito e si cambiano gli indirizzi delle pagine interne, si consiglia di configurare un server 301 per un reindirizzamento. Solo che lo indicherà al robot vecchia pagina spostato in un nuovo indirizzo ed è necessario includere il nuovo indirizzo nei risultati della ricerca.

Se il contenuto della pagina non è cambiato dall'ultima volta che il robot ha visitato la pagina, è meglio restituire un codice HTTP-304. Il robot capirà che non è necessario aggiornare la pagina nei risultati di ricerca e il contenuto non verrà nemmeno trasferito.

Quando il tuo sito è disponibile per un breve periodo, ad esempio, quando si esegue un lavoro sul server, è meglio configurare HTTP-503. Indicherà al robot che il sito e il server non sono ora disponibili, devi andare un po 'più tardi. In caso di indisponibilità a breve termine, ciò impedirà l'esclusione delle pagine dai risultati di ricerca.

Oltre a questi codici HTTP, stati della pagina, devi anche ottenere direttamente il contenuto della pagina stessa. Se per un normale visitatore la pagina si presenta così:


queste sono immagini, testo, navigazione, tutto è molto bello, quindi per il robot di indicizzazione qualsiasi pagina è solo un insieme di codice sorgente, codice HTML:


Vari meta tag, contenuto di testo, collegamenti, script, molte informazioni. Il robot lo raccoglie e lo include nei risultati della ricerca. Sembra che tutto sia semplice, hanno richiesto una pagina: hanno ottenuto lo stato, hanno ottenuto il contenuto, l'hanno incluso nella ricerca.

Ma non senza ragione nel servizio servizio di ricerca Yandex riceve più di 500 lettere da webmaster e proprietari di siti che affermano che sono sorti alcuni problemi con la risposta del server.

Tutti questi problemi possono essere divisi in due parti:

Questi sono problemi con il codice di risposta HTTP e problemi con il codice HTML, con il contenuto diretto delle pagine. Ci possono essere molte ragioni per questi problemi. Il più comune è il blocco del robot di indicizzazione da parte del provider di hosting.


Ad esempio, hai lanciato un sito Web, aggiunto nuova sezione. Il robot inizia a visitare il tuo sito più spesso, aumenta il carico sul server. Il provider di hosting lo vede durante il monitoraggio, blocca il robot di indicizzazione e quindi il robot non può accedere al tuo sito. Vai alla tua risorsa: tutto va bene, tutto funziona, le pagine sono belle, tutto si apre, tutto è super, il robot non può indicizzare il sito allo stesso tempo. Se il sito è momentaneamente non disponibile, ad esempio se hai dimenticato di pagare Nome del dominio Il sito è fermo da qualche giorno. Il robot arriva sul sito, non è disponibile, in tali condizioni può scomparire letteralmente dai risultati della ricerca dopo un po'.

Errato Impostazioni CMS, ad esempio, quando si aggiorna o si passa a un altro CMS, quando si aggiorna il design, possono anche far scomparire le pagine del tuo sito dai risultati di ricerca se le impostazioni non sono corrette. Ad esempio la presenza di un meta tag proibitivo nel codice sorgente delle pagine del sito, impostazione errata dell'attributo canonico. Verifica che dopo tutte le modifiche apportate al sito, le pagine siano disponibili per il robot.

Lo strumento in Yandex ti aiuterà in questo. Webmaster per il controllo della risposta del server:


Puoi vedere quali intestazioni HTTP il tuo server restituisce al robot, direttamente il contenuto delle pagine.


La sezione "indicizzazione" contiene le statistiche, dove puoi vedere quali pagine sono escluse, la dinamica dei cambiamenti in questi indicatori, ed effettuare vari ordinamenti e filtri.


Inoltre, oggi vi ho parlato di questa sezione, la sezione “diagnosi del sito”. Se il tuo sito non è più disponibile per il robot, riceverai una notifica e dei consigli. come può essere corretto? Se non ci sono problemi di questo tipo, il sito è disponibile, risponde ai codici-200, contiene contenuti corretti, quindi il robot si avvia in Modalità automatica visita tutte le pagine che riconosce. Questo non sempre porta alle conseguenze desiderate, quindi l'attività del robot può essere limitata in un certo modo. C'è un file robots.txt per questo. Ne parleremo nella prossima sezione.

Robot.txt

Il file robots.txt stesso è piccolo Documento di testo, si trova nella cartella principale del sito e contiene regole rigorose per il robot di indicizzazione che devono essere seguite durante la scansione del sito. I vantaggi del file robots.txt sono che non richiede conoscenze speciali e speciali per usarlo.

È sufficiente aprire Blocco note, inserire determinate regole di formato e quindi salvare semplicemente il file sul server. Durante il giorno, il robot inizia a usare queste regole.

Se prendiamo un esempio di un semplice file robots.txt, eccolo qui, solo nella diapositiva successiva:


La direttiva User-Agent:” mostra a quali robot è destinata la regola, le direttive allow/deny e le direttive ausiliarie Sitemap e Host. Un po' di teoria, voglio passare alla pratica.

Alcuni mesi fa volevo comprare un contapassi, quindi mi sono rivolto a Yandex. Mercato per aiuto con la scelta. Spostato dalla pagina principale di Yandex a Yandex. Market e siamo arrivati ​​alla pagina principale del servizio.


Sotto vedete l'indirizzo della pagina in cui sono andato. All'indirizzo del servizio stesso è stato aggiunto anche il mio identificativo, in quanto utente del sito.

Poi sono andato alla sezione "catalogo".


Seleziona la sottosezione desiderata e configura le opzioni di ordinamento, il prezzo, il filtro, la modalità di ordinamento, il produttore.

Ho ricevuto un elenco di prodotti e l'indirizzo della pagina è già cresciuto.

Sono andato al prodotto desiderato, ho cliccato sul pulsante "aggiungi al carrello" e ho proseguito con il checkout.

Durante il mio breve viaggio, gli indirizzi delle pagine sono cambiati in un certo modo.


Ad essi sono stati aggiunti parametri di servizio, che mi hanno identificato come utente, impostato l'ordinamento, indicato al proprietario del sito da dove sono andato a questa o quella pagina del sito.

Tali pagine, pagine di servizio, penso, non saranno di grande interesse per gli utenti dei motori di ricerca. Ma se sono disponibili per il robot di indicizzazione, possono entrare nella ricerca, perché il robot si comporta, di fatto, come un utente.

Va a una pagina, vede un collegamento su cui puoi fare clic, vi accede, carica i dati nel database del suo robot e continua a ignorare l'intero sito. La stessa categoria di tali indirizzi può includere anche dati personali degli utenti, ad esempio informazioni sulla consegna o dati di contatto degli utenti.

Naturalmente, è meglio vietarli. Proprio per questo, il file robots.txt ti aiuterà. Puoi venire sul tuo sito stasera dopo la fine del Webmaster, fare clic, vedere quali pagine sono realmente disponibili.

Per controllare robots.txt, c'è uno strumento speciale in Webmaster:


Puoi scaricare, inserire gli indirizzi delle pagine, vedere se sono disponibili per il robot o meno.


Apporta alcune modifiche, guarda come reagisce il robot a queste modifiche.

Errori durante l'utilizzo di robots.txt

Oltre a un impatto così positivo: la chiusura delle pagine di servizio, robots.txt, se gestito in modo improprio, può giocare uno scherzo crudele.

In primo luogo, il problema più comune quando si utilizza robots.txt è chiudere le pagine del sito che sono realmente necessarie, quelle che dovrebbero essere in ricerca e mostrate nelle richieste. Prima di apportare modifiche a robots.txt, assicurati di controllare se la pagina che desideri chiudere non partecipa, se viene visualizzata per le query nella ricerca. Forse una pagina con alcuni parametri è nei risultati di ricerca e i visitatori arrivano dalla ricerca. Pertanto, assicurati di controllare prima di utilizzare e apportare modifiche a robots.txt.

In secondo luogo, se sul tuo sito vengono utilizzati indirizzi cirillici, non potrai specificarli direttamente in robots.txt, devono essere codificati. Poiché robots.txt è uno standard internazionale, tutti i robot di indicizzazione lo seguono, dovranno sicuramente essere codificati. L'alfabeto cirillico non può essere specificato in modo esplicito.

Il terzo problema più popolare sono le regole diverse per i diversi robot dei diversi motori di ricerca. Per un robot di indicizzazione, tutte le pagine di indicizzazione sono state chiuse, per il secondo non è stato chiuso nulla. Di conseguenza, tutto va bene in un motore di ricerca, nella ricerca pagina desiderata e in un altro motore di ricerca potrebbero esserci spazzatura, varie pagine spazzatura, qualcos'altro. Assicurati di seguire se imposti un divieto, deve essere fatto per tutti i robot di indicizzazione.

Il quarto problema più comune è l'uso della direttiva Crawl-delay quando non è necessario. Questa direttiva consente di influenzare la pulizia delle query da parte del robot di indicizzazione. esso esempio pratico, un piccolo sito, l'ho posizionato su un piccolo hosting, va tutto bene. aggiunto grande catalogo, è arrivato il robot, ha visto un mucchio di nuove pagine, inizia ad accedere al sito più spesso, aumenta il carico, lo scarica e il sito diventa non disponibile. Impostiamo la direttiva Crawl-delay, il robot lo vede, riduce il carico, va tutto bene, il sito funziona, tutto è indicizzato perfettamente, è nei risultati di ricerca. Dopo qualche tempo il sito cresce ancora di più, viene trasferito su un nuovo hosting pronto a far fronte a queste richieste, con un gran numero di richieste, e la direttiva Crawl-delay viene dimenticata per essere rimossa. Di conseguenza, il robot comprende che molte pagine sono apparse sul tuo sito, ma non può indicizzarle semplicemente a causa della direttiva impostata. Se hai mai utilizzato la direttiva Crawl-delay, controlla che sia sparita ora e che il tuo servizio sia pronto per gestire il carico dal robot di indicizzazione.


Oltre alla funzionalità descritta, il file robots.txt consente anche di risolvere due compiti molto importanti: eliminare i duplicati sul sito e specificare l'indirizzo del mirror principale. Questo è esattamente ciò di cui parleremo nella prossima sezione.

Doppio


Per duplicati si intendono più pagine dello stesso sito che contengono contenuti assolutamente identici. L'esempio più comune sono le pagine con e senza una barra alla fine dell'indirizzo. Inoltre, un duplicato può essere inteso come lo stesso prodotto in diverse categorie.

Ad esempio, i pattini a rotelle possono essere per le ragazze, per i ragazzi, lo stesso modello può essere in due sezioni contemporaneamente. E, in terzo luogo, si tratta di pagine con un parametro insignificante. Come nell'esempio con Yandex. Commercializza questa pagina "identificatore di sessione", questo parametro non modifica in linea di principio il contenuto della pagina.

Per rilevare i duplicati, vedere a quali pagine accede il robot, puoi utilizzare Yandex. Webmaster.


Oltre alle statistiche, ci sono anche gli indirizzi delle pagine che il robot ha caricato. Vedi il codice e l'ultima chiamata.

Problemi causati da duplicati

Perché i duplicati sono cattivi?

In primo luogo, il robot inizia ad accedere a pagine del sito assolutamente identiche, il che crea un carico aggiuntivo non solo sul tuo server, ma influisce anche sul bypass del sito nel suo insieme. Il robot inizia a prestare attenzione alle pagine duplicate e non a quelle pagine che devono essere indicizzate e incluse nei risultati della ricerca.


Il secondo problema è che le pagine duplicate, se disponibili per il robot, possono entrare nei risultati di ricerca e competere con le pagine principali per le query, il che, ovviamente, può influire negativamente sul sito trovato per determinate query.

Come puoi gestire i duplicati?

Innanzitutto ti consiglio di utilizzare il tag "canonico". per indirizzare il robot alla pagina principale, canonica, che dovrebbe essere indicizzata ed essere nella ricerca delle query.

Nel secondo caso, puoi utilizzare i reindirizzamenti del server 301, ad esempio, per situazioni con una barra alla fine dell'indirizzo e senza una barra. Installato un reindirizzamento - nessun duplicato.


E in terzo luogo, come ho detto, questo è il file robots.txt. È possibile utilizzare sia le direttive disable che la direttiva Clean-param per eliminare i parametri non importanti.

Mirror del sito

Il secondo compito che robots.txt ti consente di risolvere è puntare il robot all'indirizzo del mirror principale.


I mirror sono un gruppo di siti assolutamente identici, come i duplicati, solo due siti diversi. I webmaster di solito incontrano i mirror in due casi: quando vogliono passare a un nuovo dominio o quando un utente deve rendere disponibili diversi indirizzi di sito.

Ad esempio, sai che gli utenti, quando digitano il tuo indirizzo, inseriscono l'indirizzo del tuo sito web barra degli indirizzi, spesso fanno lo stesso errore: sono sigillati, mettono il carattere sbagliato o qualcos'altro. Puoi acquistare un dominio aggiuntivo per mostrare agli utenti non uno stub di un provider di hosting, ma mostrare il sito a cui volevano davvero andare.

Soffermiamoci sul primo punto, perché è con lui che sorgono più spesso problemi quando si lavora con gli specchi.

Ti consiglio di eseguire l'intero processo di trasloco istruzione successiva. Una piccola guida per aiutarti a evitare vari problemi quando si passa a un nuovo nome di dominio:

Innanzitutto, è necessario rendere i siti accessibili al robot di indicizzazione e posizionare su di essi contenuti assolutamente identici. Assicurati inoltre che il robot sia a conoscenza dell'esistenza dei siti. Il modo più semplice è aggiungerli a Yandex. Webmaster e confermarne i diritti.

In secondo luogo, utilizzando la direttiva Host, punta il robot all'indirizzo del mirror principale, quello che dovrebbe essere indicizzato ed essere nei risultati della ricerca.

Stiamo aspettando l'incollaggio e il trasferimento di tutti gli indicatori dal vecchio sito al nuovo.


Dopodiché, puoi già impostare un reindirizzamento dal vecchio indirizzo a quello nuovo. Semplici istruzioni, se ti stai trasferendo, assicurati di usarlo. Spero che non ci siano problemi con
in movimento.

Ma, ovviamente, si verificano errori quando si lavora con i mirror.

Innanzitutto il problema principale è la mancanza di istruzioni esplicite per il robot di indicizzazione all'indirizzo del mirror principale, l'indirizzo che dovrebbe trovarsi nella ricerca. Controlla sui tuoi siti che hanno una direttiva host in robots.txt e porta all'indirizzo che vuoi vedere nella ricerca.

Il secondo problema più comune è l'utilizzo di un reindirizzamento per modificare il mirror principale in un gruppo esistente di mirror. Cosa sta succedendo? Il vecchio indirizzo, poiché reindirizza, non viene indicizzato dal robot, viene escluso dai risultati della ricerca. Allo stesso tempo, il nuovo sito non entra nella ricerca, perché è un mirror non principale. Stai perdendo traffico, perdendo visitatori, penso che nessuno ne abbia bisogno.


E il terzo problema è l'inaccessibilità di uno degli specchi durante lo spostamento. L'esempio più comune in questa situazione è quando il contenuto del sito è stato copiato in un nuovo indirizzo e il vecchio indirizzo è stato semplicemente disabilitato, il nome di dominio non è stato pagato e non è più disponibile. Naturalmente, tali siti non verranno incollati, devono essere disponibili per il robot di indicizzazione.

Link utili in azione:

  • Di più informazioni utili troverai nel servizio Yandex.Help.
  • Tutti gli strumenti di cui ho parlato e anche di più: esiste una versione beta di Yandex.Webmaster.

Risposte alle domande

Grazie per la segnalazione. Devo chiudere l'indicizzazione dei file CSS per il robot in robots.txt o no?

Al momento, non consigliamo di chiuderli. Sì, è meglio lasciare CSS, JavaScript, perché ora stiamo lavorando per fare in modo che il robot di indicizzazione riconosca sia gli script sul tuo sito che gli stili, lo veda come un visitatore da un normale browser.

“Dimmi, se gli url degli indirizzi del sito sono gli stessi, per il vecchio e per il nuovo, è normale?”.

Va bene. In effetti, devi solo aggiornare il design, aggiungere alcuni contenuti.

“Il sito ha una categoria ed è composto da più pagine: barra, pagina1, pagina2, fino a 10, per esempio. Tutte le pagine hanno un testo di categoria e risulta essere duplicato. Questo testo sarà un duplicato o dovrebbe essere chiuso in qualche modo, un nuovo indice nella seconda e nelle successive pagine?

Innanzitutto, poiché l'impaginazione sulla prima pagina e il contenuto sulla seconda pagina sono generalmente diversi, non saranno duplicati. Ma devi calcolare che la seconda, la terza e le successive pagine di impaginazione possono entrare nella ricerca e mostrare su qualsiasi richiesta pertinente. Meglio nelle pagine di impaginazione, consiglierei di utilizzare l'attributo canonical, nel migliore dei casi, sulla pagina che contiene tutti i prodotti in modo che il robot non includa le pagine di impaginazione nella ricerca. Le persone usano molto spesso canonico sulla prima pagina dell'impaginazione. Il robot arriva alla seconda pagina, vede il prodotto, vede il testo, non include pagine nella ricerca e capisce grazie all'attributo che è la prima pagina di impaginazione che dovrebbe essere inclusa nei risultati della ricerca. Usa canonico e chiudi il testo stesso, penso che non sia necessario.

Fonte (video): Come impostare l'indicizzazione del sito-Alexander Smirnov

Magomed Cherbizhev

Da questo materiale imparerai:

  • Cos'è l'indicizzazione
  • Come aggiungere un sito al database
  • Come velocizzare l'indicizzazione

Che cos'è l'indicizzazione?

Ve ne abbiamo già parlato. In breve, queste sono risposte alle richieste degli utenti che digitano in un motore di ricerca. Segna "compra un elefante" - ottieni siti che offrono elefanti all'ingrosso e al dettaglio. Finestre di plastica o ragazze squillo per tali richieste Yandex o Google non verranno visualizzate. E ora attenzione, la domanda è: ogni sito entra nei risultati di ricerca? No, non tutti. Come minimo, è necessario che i motori di ricerca siano a conoscenza dell'esistenza di questo sito e del contenuto che vi viene pubblicato. Dopotutto, come puoi mostrare qualcosa che nessuno conosce? Ecco a cosa servono i database. In breve, l'aggiunta di un sito con il suo contenuto a questo database è chiamata indicizzazione. Come avviene l'indicizzazione? Il robot Yandex o Google agisce secondo i propri algoritmi: cerca informazioni sul tuo sito (queste informazioni includono articoli chiave, testi, foto, ecc. - in una parola, tutti i contenuti). È come una radiografia, brilla attraverso ogni pagina del sito, la analizza, scansiona e aggiunge il tuo sito al database. Ora apparirà risultati di ricerca ed essere visualizzato in risposta alle richieste degli utenti. E in quali posizioni - in leader o outsider - dipende dal contenuto di cui è riempito. Naturalmente, l'indicizzazione del sito è semplicemente necessaria. Quando i motori di ricerca iniziano a vedere il tuo sito, i visitatori arrivano e cresce.

Come aggiungere un sito al database?

Diciamo che hai creato il sito Bestbestsite.rf. L'ho riempito, ovviamente, con i migliori contenuti e non vedo l'ora che arrivi in ​​cima. Affinché il sito e il contenuto possano essere indicizzati e inseriti nel database, è possibile utilizzare due metodi.
  1. Attendi l'autoindicizzazione. Prima o poi, i robot troveranno il tuo sito: per questo devi solo lasciare collegamenti attivi ad esso da altre risorse. Si ritiene che più collegamenti, più veloce sarà l'indicizzazione.
  2. Aggiungi un sito manualmente compilando un apposito modulo nel motore di ricerca. Lì è necessario specificare un collegamento al sito e brevi informazioni su di lui. In Yandex, ad esempio, questo viene fatto nel servizioYandex Webmaster Sulla pagina Segnala un nuovo sito .
Nella stessa posizione in Webmaster, puoi quindi monitorare le statistiche delle richieste che portano gli utenti al tuo sito. Anche in Google tutto è semplice: puoi registrare un sito utilizzando il linkCentro webmaster di Google . Quanto è veloce l'indicizzazione? È difficile dire i numeri esatti - è altrettanto fortunato. Ma una cosa sappiamo per certo: Yandex indicizza più lentamente di Google. Ci sono stati casi in cui l'indicizzazione era prevista per diverse settimane.

Come velocizzare l'indicizzazione?

Gli algoritmi dei motori di ricerca sono una cosa imprevedibile e, come già accennato, non esiste una ricetta precisa. Possiamo consigliare metodi collaudati (essenzialmente gli stessi che influenzano la promozione del sito web nei risultati di ricerca)
  1. Contenuti unici che i motori di ricerca amano così tanto. Un punto: se hai pubblicato un articolo su un sito web o un blog e non è stato ancora indicizzato, chiunque può teoricamente rubarlo e ospitarlo. Se su un altro sito l'articolo è indicizzato in precedenza, sei nell'intervallo. Il tuo articolo sarà considerato non unico e il concorrente rimarrà in cioccolato.
  2. Chiara struttura del sito. Segui la regola dei tre click: puoi arrivare ad ogni pagina da quella principale in non più di tre click. Meno è buono, più è meglio no! Ciò renderà più facile per i motori di ricerca indicizzare non solo la pagina principale, ma anche altre pagine.
  3. Collegamento da pagine interne- utile sia per i visitatori che per il robot.
  4. Trasmetti i messaggi alle directory RSS. Tutti i tuoi post verranno duplicati nelle directory RSS, dove vengono aggiunti i feed RSS. Questi sono feed per l'iscrizione agli aggiornamenti del blog o del sito Web in modo da ricevere le ultime novità nella posta. Con il loro aiuto, il motore di ricerca troverà rapidamente i tuoi nuovi articoli e li indicizzerà.

Ecco un esempio di indicizzazione riuscita

Una settimana fa, su uno dei siti è apparso un articolo su una pistola. VPO-213 . Non c'erano praticamente informazioni su questa pistola sul Web: non è ancora apparsa in vendita. C'era solo una breve presentazione in un video di YouTube. Di conseguenza, il testo era completamente unico e quasi l'unico su Internet su questo argomento. Intorno a mezzanotte, il testo è stato pubblicato sul sito (nemmeno su pagina iniziale!) ed è stato indicizzato in breve tempo. Alle dieci e mezza del mattino successivo, l'articolo era al terzo posto nei risultati di ricerca di Yandex. Alle 9.50 è diventata la prima e mantiene queste posizioni fino ad ora.

In generale, se la tua risorsa è buona, ben fatta, non dovrebbero esserci problemi con la sua indicizzazione. Se il sito, anche se non al 100%, soddisfa i requisiti dei motori di ricerca - "per le persone", allora saranno felici di guardarti alla luce e indicizzare tutto ciò che di nuovo verrà aggiunto.

Comunque sia, il primo passo per promuovere un sito è aggiungerlo all'indice PS. Fino a quando la risorsa non viene indicizzata, in generale, non c'è nulla da promuovere, perché i motori di ricerca non lo sapranno affatto. Pertanto, in questo articolo considererò cos'è l'indicizzazione del sito in Yandex e come inviare una risorsa per l'indicizzazione. Ti dirò anche come verificare se un sito o una pagina separata è incluso nell'indice Yandex e cosa fare per accelerare l'indicizzazione di Yandex.

L'indicizzazione di un sito in Yandex è un bypass del tuo sito da parte dei robot del motore di ricerca yandex e l'inserimento di tutto pagine aperte alla base. Lo spider del motore di ricerca russo aggiunge al database i dati sul sito: le sue pagine, le immagini, i video, i documenti disponibili per la ricerca. Inoltre, il bot di ricerca è impegnato nell'indicizzazione di collegamenti e altri elementi che non vengono chiusi con tag e file speciali.

I modi principali per indicizzare una risorsa:

    Forzato: è necessario inviare il sito per l'indicizzazione in Yandex tramite un modulo speciale.

    Naturale: lo spider di ricerca riesce a trovare il tuo sito da solo, spostandosi da risorse esterne che rimandano al sito web.

Il tempo per l'indicizzazione di un sito in Yandex è diverso per tutti e può variare da un paio d'ore a diverse settimane.

Dipende da molti fattori: quali valori ci sono in Sitemap.xml, quanto spesso viene riempita la risorsa, quanto spesso appare la menzione del sito su altre risorse. Il processo di indicizzazione è ciclico, quindi il robot verrà da te a intervalli di tempo (praticamente) uguali. Ma con quale frequenza, dipende dai fattori sopra menzionati e dal robot specifico.

Lo spider può indicizzare l'intero sito Web (se è piccolo) o una sezione separata (questo vale per negozi o media online). Su risorse aggiornate di frequente, come i media e portali di informazione live, i cosiddetti robot veloci per l'indicizzazione rapida dei siti in Yandex.

A volte il progetto potrebbe riscontrare problemi tecnici (o problemi con il server), nel qual caso l'indicizzazione yandex del sito non avrà luogo, a causa della quale il motore di ricerca potrebbe ricorrere al seguente scenario:

  • eliminare immediatamente le pagine non indicizzate dal database;
  • reindicizzare la risorsa dopo un certo tempo;
  • inserire le pagine che non sono state indicizzate da escludere dal database e, se non vengono trovate durante la reindicizzazione, verranno espulse dall'indice.

Come velocizzare l'indicizzazione del sito in Yandex

Come accelerare l'indicizzazione in Yandex - domande frequenti su vari forum di webmaster. In effetti, la vita dell'intero sito dipende dall'indicizzazione: la posizione della risorsa nel PS, il numero di clienti da loro, la popolarità del progetto, il profitto, alla fine.

Ho preparato 10 modi che spero ti possano essere utili. I primi cinque sono standard per l'indicizzazione permanente della risorsa e i seguenti cinque ti aiuteranno ad accelerare l'indicizzazione del sito in Yandex:

    servizi di bookmarking;

    RSS-feed - assicurerà la trasmissione di nuovi materiali dalla tua risorsa alla posta degli abbonati e alle directory RSS;

    scambi di link - forniranno un aumento stabile dei link dofollow da donatori di qualità, con la loro corretta selezione (come selezionare correttamente);

    - se non hai ancora registrato il sito nelle directory, allora ti consiglio di farlo. Molte persone dicono che le directory sono morte da tempo o che la registrazione in esse ucciderà il sito - questo non è vero. Più precisamente, non è tutta la verità, se ti registri in tutte le directory di seguito, la tua risorsa ne risentirà solo. Ma con la giusta selezione di fiducia e buoni cataloghi, l'effetto sarà innegabile.

Controllo dell'indicizzazione del sito in Yandex

  • operatori del sito e degli URL. Se desideri controllare l'indicizzazione del sito in Yandex, puoi utilizzare gli operatori standard del motore di ricerca..biz. (Certo, invece del mio dominio, il tuo)

  • barra RDS. Penso il migliore e modo veloce controllo dell'indicizzazione delle pagine in Yandex. Questo plugin può essere installato su tutti i browser più diffusi, fornisci immediatamente informazioni dettagliate circa il numero di pagine del sito nell'indice e la presenza di materiale specifico in esso. Con questa estensione, non perderai tempo a inserire manualmente gli URL nei servizi o nelle ricerche. In generale, consiglio che la barra RDS sia estremamente comoda:
  • Serfante di servizio. Una risorsa multifunzionale con cui analizzare il sito: valutare l'efficacia e monitorare i siti, analizzare le pagine dei concorrenti, controllare le posizioni e indicizzare il sito. Puoi controllare l'indicizzazione delle pagine gratuitamente a questo link: https://serphunt.ru/indexing/. Grazie alla verifica batch (fino a 50 indirizzi) e all'elevata affidabilità dei risultati, questo servizio tra i primi tre secondo me.

  • Servizio XSEO. Un set di strumenti per i webmaster, in XSEO.in puoi vedere l'indicizzazione del sito in Yandex. Ottieni anche molte informazioni utili aggiuntive sulla tua risorsa:

  • Servizi PR-CY e CY-PR. Un altro paio di servizi che ti forniranno informazioni sul numero totale di pagine indicizzate:

  • servizio di segnalazione del sito. Un servizio eccellente che ti indicherà tutti i tuoi errori nel lavorare sul sito. Ha anche una sezione "Indicizzazione", in cui verranno fornite informazioni per ogni pagina del sito indicando se è indicizzata o meno nei motori di ricerca Yandex e Google. Pertanto, consiglio di utilizzare questa risorsa per rilevare problemi sul sito e controllare l'indicizzazione di massa Yandex: