Maison / Réseaux sociaux / Indexation des pages. Un blog sur les paramètres du plugin WordPress et l'optimisation des moteurs de recherche pour les webmasters débutants. Est-il possible d'accélérer l'indexation

Indexation des pages. Un blog sur les paramètres du plugin WordPress et l'optimisation des moteurs de recherche pour les webmasters débutants. Est-il possible d'accélérer l'indexation

S'il y a des problèmes d'indexation, vous devez d'abord vérifier robots.txt et sitemap.xml.

Tout moteur de recherche possède une base de données volumineuse où tous les sites et nouvelles pages sont entrés. Cette base est appelée « indice ». Jusqu'à ce que le robot contourne le document html, l'analyse et l'ajoute à l'index, il n'apparaîtra pas dans les résultats de la recherche. Il n'est accessible que via le lien.

Que signifie "indexation" ?

Mieux qu'un spécialiste de l'indexation Yandex, personne ne vous en parlera :

L'indexation est un processus au cours duquel les pages du site sont contournées par le robot de recherche et incluent (ou non) ces pages dans l'index du moteur de recherche. Le bot de recherche scanne tout le contenu, effectue une analyse sémantique du contenu textuel, de la qualité des liens, des fichiers audio et vidéo. Sur la base de tout cela, le moteur de recherche tire des conclusions et fait du site un classement.

Tant que le site est hors de l'index, personne ne le saura, sauf ceux à qui vous pouvez distribuer des liens directs. C'est-à-dire que la ressource peut être consultée, mais qu'elle ne figure pas dans le moteur de recherche.

A quoi sert l'indice ?

Le site a besoin de gagner en visibilité pour avancer, grandir et se développer. Une ressource Web qui n'apparaît dans aucun PS est inutile et ne profite ni aux utilisateurs ni à son propriétaire.

En général, voici la vidéo complète de l'école des webmasters Yandex, si vous la regardez en entier, vous deviendrez pratiquement un spécialiste de la question de l'indexation :

Ce qui détermine la vitesse d'indexation

Les principaux points qui déterminent la rapidité avec laquelle votre site peut entrer dans la zone d'attention des robots de recherche :

  • Âge du domaine (le plus ancien Nom de domaine, plus les robots le favorisent).
  • Hébergement (PS n'aime absolument pas et ignore souvent l'hébergement gratuit).
  • CMS, pureté et validité du code.
  • Taux de rafraîchissement des pages.

Qu'est-ce que le budget de crawl ?

Chaque site a un budget de crawl - c'est-à-dire le nombre de pages, plus qu'il ne peut entrer dans l'index. Si le site KB est de 1000 pages, alors même si vous avez dix mille pages, il n'y en aura qu'un millier dans l'index. La taille de ce budget dépend de l'autorité et de l'utilité de votre site. Et si vous avez un problème d'une telle nature que les pages n'entrent pas dans l'index, alors en option, vous devez, aussi banal que cela puisse paraître, améliorer le site!

Indexation du site

Lors de la création d'un nouveau site, vous devez remplir correctement le fichier robots.txt, qui indique aux moteurs de recherche si la ressource peut être indexée, quelles pages explorer et lesquelles ne pas toucher.

Le fichier est créé au format txt et placé dans le dossier racine du site. Les bons robots sont une question distincte. Ce fichier détermine principalement quoi et comment les bots vont analyser sur votre site.

Habituellement, il faut de quelques semaines à quelques mois aux moteurs de recherche pour évaluer un nouveau site et l'entrer dans la base de données.

Les araignées scannent soigneusement chaque document html autorisé, déterminant le sujet approprié pour une nouvelle ressource jeune. Cette action ne se réalise pas en une journée. A chaque nouveau contournement, le PS contribuera de plus en plus plus documents html à votre base de données. De plus, le contenu sera réévalué de temps à autre, ce qui peut modifier la place des pages dans les résultats de recherche.

La balise meta robots et, dans une certaine mesure, canonique aident également à gérer l'indexation. Lors de la vérification de la structure et de la résolution de problèmes d'indexation, vous devez toujours rechercher leur présence.

Google indexe d'abord les pages de niveau supérieur. Lorsqu'un nouveau site avec une structure spécifique doit être indexé, la page principale est indexée en premier. Après cela, sans connaître la structure du site, le moteur de recherche indexera ce qui se rapproche le plus du slash. Les répertoires ultérieurs avec deux barres obliques sont indexés. Cela signifie que même si les liens dans le contenu sont élevés, ils ne seront pas nécessairement indexés en premier. Il est important de la structurer de manière optimale afin que les sections importantes ne soient pas derrière de nombreuses barres obliques, sinon Google pensera qu'il s'agit d'une page de bas niveau.

Indexation des pages

Lorsque Yandex et Google se sont déjà familiarisés avec le site et l'ont "accepté" dans leur base de recherche, les bots reviendront à la ressource pour explorer de nouveaux matériaux ajoutés. Plus le contenu est mis à jour souvent et régulièrement, plus les araignées le suivront de près.

Ils disent que le plugin PDS pinger pour la recherche Yandex aide à l'indexation - https://site.yandex.ru/cms-plugins/. Pour ce faire, vous devez d'abord installer la recherche Yandex sur votre site. Mais je n'en ai pas ressenti beaucoup d'avantages.

Lorsque la ressource est bien indexée, il est déjà beaucoup plus facile d'afficher de nouvelles pages séparées dans la recherche. Mais néanmoins, l'analyse ne se produit pas toujours de manière uniforme et à la même vitesse pour tous les documents html mis à jour simultanément. Les catégories de ressources les plus visitées et promues gagnent toujours.

Quelles sont les sources d'information des moteurs de recherche sur les URL ?

Il était une fois, j'ai attiré un robot rapide chez un concurrent qui n'a pas renouvelé le domaine, afin qu'il soit abaissé dans les résultats de recherche - cela n'a donné aucun résultat.

Comment vérifier l'indexation

Contrôle de visibilité document html effectuée différemment pour Google et Yandex. Mais en général, ce n'est rien de compliqué. Même un débutant peut le faire.

Vérification dans Yandex

Le système propose trois opérateurs principaux pour vérifier combien de documents html sont dans l'index.

L'opérateur « site : » affiche absolument toutes les pages de la ressource qui sont déjà entrées dans la base de données.

Saisie dans la barre de recherche comme ceci : site:site

Opérateur "hôte :" - vous permet de voir les pages indexées des domaines et sous-domaines de l'hébergement.

Saisie dans la barre de recherche comme suit : host:site

L'opérateur "url :" affiche la page spécifique demandée.

Saisie dans la barre de recherche comme suit : url:site/obo-mne

Vérifier l'indexation avec ces commandes donne toujours des résultats précis et est le plus d'une manière simple analyse de la visibilité des ressources.

Vérification Google

PS Google vous permet de vérifier la visibilité d'un site en utilisant une seule commande du formulaire site:site.

Mais Google a une particularité : il gère la commande avec et sans www saisi différemment. Yandex, en revanche, ne fait pas une telle différence et donne exactement les mêmes résultats, à la fois avec www et sans eux.

La vérification par les opérateurs est la méthode la plus "à l'ancienne", mais à cette fin, j'utilise le plugin de navigateur RDS Bar.

Vérification avec le Webmaster

Dans les services Google Webmaster et Yandex Webmaster, vous pouvez également voir combien de pages se trouvent dans la base de données PS. Pour ce faire, vous devez être enregistré dans ces systèmes et y ajouter votre site. Vous pouvez y accéder en suivant les liens :

L'essentiel est le suivant : entrez simplement les adresses de page et le service vous donne les résultats :

Il ne vérifie pas très rapidement - il devra attendre 3 minutes là-bas, mais il y a peu de plaintes concernant l'outil gratuit. Il suffit de le mettre dans la fenêtre d'arrière-plan et de vaquer à vos occupations, dans quelques minutes les résultats seront prêts.

Est-il possible d'accélérer l'indexation ?

Vous pouvez influencer la vitesse de chargement des documents html par les robots de recherche. Pour ce faire, suivez les recommandations suivantes :

  • Augmentez le nombre de signaux sociaux en encourageant les utilisateurs à partager des liens dans leurs profils. Et vous pouvez prendre des tweets à partir de comptes en direct dans Prospero (klout 50+). Si vous faites votre liste blanche de twitters, considérez que vous avez reçu arme puissante pour accélérer l'indexation ;
  • Ajoutez plus souvent de nouveaux matériaux;
  • Vous pouvez commencer à utiliser les requêtes directes les moins chères dans votre sujet ;
  • Entrer l'adresse nouvelle page in addurilki immédiatement après sa publication.

Haut facteurs comportementaux sur le site ont également un effet positif sur la vitesse de mise à jour des pages dans la recherche. Par conséquent, n'oubliez pas la qualité et l'utilité du contenu pour les gens. Un site que les utilisateurs aiment vraiment est sûr d'être aimé par les robots de recherche.

En général, tout est très simple dans Google - vous pouvez ajouter une page à l'index en quelques minutes en scannant dans le panneau du webmaster (élément Scan / see how Googlebot / add to the index). De la même manière, vous pouvez rapidement réindexer les pages nécessaires.

J'ai entendu plus d'histoires sur des mecs qui ont envoyé des URL par courrier Yandex afin qu'ils entrent plus rapidement dans l'index. À mon avis, c'est un non-sens.

S'il y a un problème direct et que tous les conseils précédents n'ont pas aidé, il reste à passer à l'artillerie lourde.

  • Configurez les en-têtes Last-modified (pour que le robot ne vérifie les mises à jour que des documents qui ont vraiment changé depuis son dernier appel) ;
  • Suppression des fichiers indésirables de l'index moteurs de recherche(cette poubelle peut être trouvée en utilisant Comparser);
  • Nous cachons tous les documents inutiles/indésirables du robot ;
  • Faire fichiers supplémentaires Sitemap.xml Habituellement, les robots lisent jusqu'à 50 000 pages à partir de ce fichier, si vous avez plus de pages, vous devez créer plus de sitemaps ;
  • Configuration du serveur.

Qu'est-ce que l'indexation ? Il s'agit du processus consistant à transmettre le contenu des pages de votre site au robot et à inclure ce contenu dans les résultats de recherche. Si nous nous tournons vers les chiffres, la base de données du robot d'indexation contient des milliards d'adresses de pages de sites. Chaque jour, le robot demande des milliards d'adresses de ce type.

Mais tout ce grand processus d'indexation d'Internet peut être divisé en petites étapes :


Tout d'abord, le robot d'indexation doit savoir quand une page de votre site est apparue. Par exemple, en indexant d'autres pages sur Internet, en trouvant des liens, ou en téléchargeant le set nemp. Nous avons pris connaissance de la page, après quoi nous prévoyons de contourner cette page, d'envoyer des données à votre serveur pour demander cette page du site, d'obtenir le contenu et de l'inclure dans les résultats de recherche.

Tout ce processus est le processus d'échange du robot d'indexation avec votre site. Si les requêtes envoyées par le robot d'indexation ne changent pratiquement pas, et que seule l'adresse de la page change, alors la réponse de votre serveur à une requête de page par le robot dépend de nombreux facteurs :

  • depuis les paramètres de votre CMS ;
  • depuis les paramètres de l'hébergeur ;
  • du travail d'un prestataire intermédiaire.

Cette réponse est en train de changer. Tout d'abord, lors de la demande d'une page, le robot reçoit la réponse de service suivante de votre site :


Ce sont des en-têtes HTTP. Ils contiennent diverses informations de service qui indiquent clairement au robot quel contenu sera transmis maintenant.

Je veux me concentrer sur le premier en-tête - il s'agit d'un code de réponse HTTP qui indique au robot d'indexation le statut de la page demandée par le robot.

Il existe plusieurs dizaines de tels statuts de codes HTTP :


Je vais parler des plus populaires. Le code de réponse le plus courant est HTTP-200. La page est disponible, elle peut être indexée, incluse dans les résultats de recherche, tout va bien.

L'opposé de ce statut est HTTP-404. La page manque sur le site, il n'y a rien à indexer, il n'y a rien à inclure dans la recherche non plus. Lors de la modification de la structure des sites et des changements d'adresses pages internes nous vous conseillons de configurer un serveur 301 pour une redirection. Juste il fera remarquer au robot que ancienne page déménagé à une nouvelle adresse et doit être inclus dans Résultats de recherche la nouvelle adresse.

Si le contenu de la page n'a pas changé depuis la dernière visite de la page par le robot, il est préférable de renvoyer un code HTTP-304. Le robot comprendra qu'il n'est pas nécessaire de mettre à jour la page dans les résultats de recherche et le contenu ne sera pas transféré non plus.

Lorsque votre site est disponible pendant une courte période, par exemple lorsque vous effectuez des travaux sur le serveur, il est préférable de configurer HTTP-503. Il indiquera au robot que le site et le serveur ne sont pas disponibles actuellement, vous devez y aller un peu plus tard. En cas d'indisponibilité de courte durée, cela empêchera les pages d'être exclues des résultats de recherche.

En plus de ces codes HTTP, statuts de page, vous devez également obtenir directement le contenu de la page elle-même. Si pour un visiteur normal la page ressemble à ceci :


ce sont des images, du texte, de la navigation, tout est très beau, alors pour le robot d'indexation toute page n'est qu'un ensemble de code source, du code HTML :


Diverses balises méta, contenu textuel, liens, scripts, beaucoup d'informations. Le robot le collecte et l'inclut dans les résultats de recherche. Il semble que tout soit simple, ils ont demandé une page - ils ont obtenu le statut, ils ont obtenu le contenu, ils l'ont inclus dans la recherche.

Mais pas sans raison dans le service service de recherche Yandex reçoit plus de 500 lettres de webmasters et de propriétaires de sites indiquant que certains problèmes sont survenus avec la réponse du serveur.

Tous ces problèmes peuvent être divisés en deux parties :

Ce sont des problèmes avec le code de réponse HTTP et des problèmes avec le code HTML, avec le contenu direct des pages. Il peut y avoir plusieurs raisons à ces problèmes. Le plus courant est le blocage du robot d'indexation par l'hébergeur.


Par exemple, vous avez lancé un site Web, ajouté nouvelle rubrique. Le robot commence à visiter votre site plus souvent, augmente la charge sur le serveur. L'hébergeur le voit sur sa surveillance, bloque le robot d'indexation, et donc le robot ne peut pas accéder à votre site. Vous allez à votre ressource - tout va bien, tout fonctionne, les pages sont belles, tout s'ouvre, tout est super, le robot ne peut pas indexer le site en même temps. Si le site est momentanément indisponible, par exemple si vous avez oublié de payer le nom de domaine, le site est désactivé pendant plusieurs jours. Le robot arrive sur le site, il n'est pas disponible, dans de telles conditions, il peut littéralement disparaître des résultats de la recherche après un certain temps.

Incorrect Paramètres du CMS, par exemple, lors de la mise à jour ou du passage à un autre CMS, lors de la mise à jour du design, ils peuvent également faire disparaître les pages de votre site des résultats de recherche si les paramètres sont incorrects. Par exemple, présence d'une balise meta d'interdiction dans le code source des pages du site, paramétrage incorrect de l'attribut canonique. Vérifiez qu'après toutes les modifications que vous apportez au site, les pages sont disponibles pour le robot.

L'outil de Yandex vous y aidera. Webmaster pour vérifier la réponse du serveur :


Vous pouvez voir quels en-têtes HTTP votre serveur renvoie au robot, directement le contenu des pages.


La section "indexation" contient des statistiques, où vous pouvez voir quelles pages sont exclues, la dynamique des changements de ces indicateurs, et faire divers tris et filtrages.


Aussi, aujourd'hui j'ai parlé de cette section, la section "diagnostic du site". Si votre site est devenu indisponible pour le robot, vous recevrez une notification et des recommandations. Comment cela peut-il être corrigé ? S'il n'y a pas de tels problèmes, le site est disponible, répond aux codes-200, contient un contenu correct, puis le robot démarre dans mode automatique visiter toutes les pages qu'il reconnaît. Cela ne conduit pas toujours aux conséquences souhaitées, de sorte que l'activité du robot peut être limitée d'une certaine manière. Il existe un fichier robots.txt pour cela. Nous en parlerons dans la section suivante.

Robots.txt

Le fichier robots.txt lui-même est petit Document texte, il se trouve dans le dossier racine du site et contient des règles strictes pour le robot d'indexation qui doivent être suivies lors de l'exploration du site. Les avantages du fichier robots.txt sont qu'il ne nécessite pas de connaissances particulières et particulières pour l'utiliser.

Il suffit d'ouvrir le Bloc-notes, d'entrer certaines règles de format, puis d'enregistrer simplement le fichier sur le serveur. Pendant la journée, le robot commence à utiliser ces règles.

Si nous prenons un exemple de fichier robots.txt simple, le voici, juste sur la diapositive suivante :


La directive User-Agent:" indique à quels robots la règle est destinée, les directives allow/deny et les directives auxiliaires Sitemap et Host. Un peu de théorie, je veux passer à la pratique.

Il y a quelques mois, je voulais acheter un podomètre, alors je me suis tourné vers Yandex. Marché de l'aide au choix. Bouger de page d'accueil Yandex à Yandex. Marché et est arrivé à la page principale du service.


Ci-dessous vous voyez l'adresse de la page où je suis allé. A l'adresse du service lui-même, l'identifiant de moi, en tant qu'utilisateur sur le site, a également été ajouté.

Puis je suis allé dans la section "catalogue"


Sélectionnez la sous-section souhaitée et configurez les options de tri, le prix, le filtre, comment trier, le fabricant.

J'ai reçu une liste de produits et l'adresse de la page a déjà augmenté.

Je suis allé au produit souhaité, j'ai cliqué sur le bouton "ajouter au panier" et j'ai poursuivi le paiement.

Au cours de mon court voyage, les adresses des pages ont changé d'une certaine manière.


On leur a ajouté des paramètres de service, qui m'identifiaient en tant qu'utilisateur, mettaient en place un tri, indiquaient au propriétaire du site d'où je suis allé sur telle ou telle page du site.

De telles pages, des pages de service, je pense, n'intéresseront pas beaucoup les utilisateurs des moteurs de recherche. Mais s'ils sont disponibles pour le robot d'indexation, ils peuvent entrer dans la recherche, car le robot se comporte, en fait, comme un utilisateur.

Il va sur une page, voit un lien sur lequel vous pouvez cliquer, s'y rend, charge les données dans sa base de données de robots et continue de contourner l'ensemble du site. La même catégorie d'adresses de ce type peut également inclure des données personnelles d'utilisateurs, telles que des informations de livraison ou des données de contact d'utilisateurs.

Naturellement, il vaut mieux les interdire. Juste pour cela, le fichier robots.txt vous aidera. Vous pouvez venir sur votre site ce soir après la fin du Webmaster, cliquer, voir quelles pages sont réellement disponibles.

Afin de vérifier robots.txt, il existe un outil spécial dans Webmaster :


Vous pouvez télécharger, entrer des adresses de pages, voir si elles sont disponibles pour le robot ou non.


Faites quelques changements, voyez comment le robot réagit à ces changements.

Erreurs lors de l'utilisation de robots.txt

En plus d'un tel impact positif - fermeture des pages de service, robots.txt, s'il est mal géré, peut jouer une blague cruelle.

Premièrement, le problème le plus courant lors de l'utilisation de robots.txt est la fermeture des pages du site qui sont vraiment nécessaires, celles qui devraient être recherchées et affichées sur les requêtes. Avant d'apporter des modifications à robots.txt, assurez-vous de vérifier si la page que vous souhaitez fermer ne participe pas, si elle s'affiche pour les requêtes dans la recherche. Peut-être qu'une page avec certains paramètres se trouve dans les résultats de la recherche et que les visiteurs y accèdent à partir de la recherche. Par conséquent, assurez-vous de vérifier avant d'utiliser et de modifier robots.txt.

Deuxièmement, si des adresses cyrilliques sont utilisées sur votre site, vous ne pourrez pas les spécifier directement dans robots.txt, elles doivent être encodées. Puisque robots.txt est une norme internationale, tous les robots d'indexation la suivent, ils devront certainement être encodés. L'alphabet cyrillique ne peut pas être spécifié explicitement.

Le troisième problème le plus courant concerne les règles différentes pour différents robots de différents moteurs de recherche. Pour un robot d'indexation, toutes les pages d'indexation étaient fermées, pour le second, rien n'était fermé du tout. En conséquence, tout va bien dans un moteur de recherche, dans la recherche page souhaitée, et dans un autre moteur de recherche, il peut y avoir des ordures, diverses pages d'ordures, autre chose. Assurez-vous de suivre, si vous définissez une interdiction, cela doit être fait pour tous les robots d'indexation.

Le quatrième problème le plus courant est l'utilisation de la directive Crawl-delay lorsqu'elle n'est pas nécessaire. Cette directive permet d'influer sur la propreté des requêtes de la part du robot d'indexation. Ce exemple pratique, un petit site, placé dessus sur un petit hébergement, tout va bien. ajoutée grand catalogue, le robot est venu, a vu un tas de nouvelles pages, commence à accéder au site plus souvent, augmente la charge, le télécharge et le site devient indisponible. On met la directive Crawl-delay, le robot voit ça, réduit la charge, tout va bien, le site fonctionne, tout est parfaitement indexé, c'est dans les résultats de recherche. Au bout d'un certain temps, le site grossit encore plus, est transféré vers un nouvel hébergement qui est prêt à faire face à ces demandes, avec un grand nombre de requêtes, et la directive Crawl-delay est oubliée pour être supprimée. En conséquence, le robot comprend que de nombreuses pages sont apparues sur votre site, mais ne peut pas les indexer simplement à cause de la directive définie. Si vous avez déjà utilisé la directive Crawl-delay, vérifiez qu'elle a disparu maintenant et que votre service est prêt à gérer la charge du robot d'indexation.


En plus des fonctionnalités décrites, le fichier robots.txt vous permet également de résoudre deux tâches très importantes - se débarrasser des doublons sur le site et spécifier l'adresse du miroir principal. C'est exactement ce dont nous parlerons dans la section suivante.

Double


Par doublons, nous entendons plusieurs pages d'un même site qui contiennent un contenu absolument identique. L'exemple le plus courant est celui des pages avec et sans barre oblique à la fin de l'adresse. En outre, un doublon peut être compris comme le même produit dans différentes catégories.

Par exemple, les patins à roulettes peuvent être pour les filles, pour les garçons, le même modèle peut être en deux sections en même temps. Et, troisièmement, ce sont des pages avec un paramètre insignifiant. Comme dans l'exemple avec Yandex. Commercialisez cette page "identifiant de session", ce paramètre ne modifie en principe pas le contenu de la page.

Pour détecter les doublons, voir à quelles pages le robot accède, vous pouvez utiliser Yandex. Webmestre.


En plus des statistiques, il existe également des adresses de pages que le robot a chargées. Vous voyez le code et le dernier appel.

Problème causé par les doublons

Pourquoi les doublons sont-ils mauvais ?

Premièrement, le robot commence à accéder à des pages absolument identiques du site, ce qui crée une charge supplémentaire non seulement sur votre serveur, mais affecte également le contournement du site dans son ensemble. Le robot commence à prêter attention aux pages en double, et non aux pages qui doivent être indexées et incluses dans les résultats de recherche.


Le deuxième problème est que les pages en double, si elles sont disponibles pour le robot, peuvent entrer dans les résultats de recherche et entrer en concurrence avec les pages principales pour les requêtes, ce qui, bien sûr, peut affecter négativement le site trouvé pour certaines requêtes.

Comment gérer les doublons ?

Avant toute chose, je vous conseille d'utiliser la balise "canonique" afin de pointer le robot vers la page principale, canonique, qui doit être indexée et être dans la recherche de requêtes.

Dans le second cas, vous pouvez utiliser les redirections de serveur 301, par exemple, pour les situations avec une barre oblique à la fin de l'adresse et sans barre oblique. Nous avons mis en place une redirection - il n'y a pas de doublons.


Et troisièmement, comme je l'ai dit, c'est le fichier robots.txt. Vous pouvez utiliser à la fois les directives disable et la directive Clean-param pour vous débarrasser des paramètres sans importance.

Miroirs de sites

La deuxième tâche que robots.txt vous permet de résoudre est de pointer le robot vers l'adresse du miroir principal.


Les miroirs sont un groupe de sites absolument identiques, comme des doublons, seulement deux sites différents. Les webmasters rencontrent généralement des miroirs dans deux cas : lorsqu'ils souhaitent passer à un nouveau domaine ou lorsqu'un utilisateur doit rendre plusieurs adresses de site disponibles.

Par exemple, vous savez que les utilisateurs, lorsqu'ils saisissent votre adresse, l'adresse de votre site Web dans barre d'adresse, font souvent la même erreur - ils sont scellés, ils mettent le mauvais caractère ou autre chose. Vous pouvez acheter un domaine supplémentaire afin de montrer aux utilisateurs non pas un stub d'un fournisseur d'hébergement, mais de montrer le site sur lequel ils voulaient vraiment aller.

Arrêtons-nous sur le premier point, car c'est avec lui que les problèmes surviennent le plus souvent lorsque l'on travaille avec des miroirs.

Je vous conseille d'effectuer l'ensemble du processus de déménagement instruction suivante. Un petit guide pour vous aider à éviter problèmes divers lors du passage à un nouveau nom de domaine :

Tout d'abord, vous devez rendre les sites accessibles au robot d'indexation et y placer un contenu absolument identique. Assurez-vous également que le robot connaît l'existence des sites. Le moyen le plus simple est de les ajouter à Yandex. Webmaster et confirmez-leur les droits.

Deuxièmement, en utilisant la directive Host, pointez le robot vers l'adresse du miroir principal - celui qui doit être indexé et figurer dans les résultats de la recherche.

Nous attendons le collage et le transfert de tous les indicateurs de l'ancien site vers le nouveau.


Après cela, vous pouvez déjà définir une redirection de l'ancienne adresse vers la nouvelle. Instructions simples, si vous déménagez, assurez-vous de l'utiliser. J'espère qu'il n'y a pas de problèmes avec
en mouvement.

Mais, bien sûr, des erreurs se produisent lorsque vous travaillez avec des miroirs.

Tout d'abord, le problème principal est le manque d'instructions explicites pour le robot d'indexation à l'adresse du miroir principal, l'adresse qui devrait être dans la recherche. Vérifiez sur vos sites qu'ils ont une directive host dans robots.txt, et cela mène à l'adresse que vous voulez voir dans la recherche.

Le deuxième problème le plus courant consiste à utiliser une redirection pour changer le miroir maître dans un groupe de miroirs existant. Ce qui se passe? L'ancienne adresse, puisqu'elle redirige, n'est pas indexée par le robot, elle est exclue des résultats de recherche. Dans le même temps, le nouveau site n'entre pas dans la recherche, car il s'agit d'un miroir non principal. Vous perdez du trafic, vous perdez des visiteurs, je pense que personne n'en a besoin.


Et le troisième problème est l'inaccessibilité de l'un des miroirs lors du déplacement. L'exemple le plus courant dans cette situation est lorsque le contenu du site a été copié vers une nouvelle adresse et que l'ancienne adresse a simplement été désactivée, le nom de domaine n'a pas été payé et il est devenu indisponible. Naturellement, de tels sites ne seront pas collés, ils doivent être disponibles pour le robot d'indexation.

Liens utiles en action :

  • Plus informations utiles vous trouverez dans le service Yandex.Help.
  • Tous les outils dont j'ai parlé et plus encore - il existe une version bêta de Yandex.Webmaster.

Réponses aux questions

Merci pour le rapport. Dois-je fermer l'indexation des fichiers CSS pour le robot dans robots.txt ou non ?

Pour le moment, nous vous déconseillons de les fermer. Oui, il vaut mieux laisser CSS, JavaScript, car maintenant nous travaillons à ce que le robot d'indexation reconnaisse à la fois les scripts de votre site et les styles, voyez-le comme un visiteur d'un navigateur classique.

"Dites-moi, si les urls des adresses des sites sont les mêmes, pour l'ancien et pour le nouveau, est-ce normal ?".

C'est bon. En fait, il vous suffit de mettre à jour le design, d'ajouter du contenu.

« Le site a une catégorie et il se compose de plusieurs pages : slash, page1, page2, jusqu'à 10, par exemple. Toutes les pages ont un texte de catégorie, et il s'avère être en double. Ce texte sera-t-il un doublon ou devrait-il être fermé d'une manière ou d'une autre, un nouvel index sur la deuxième page et les suivantes ?

Tout d'abord, étant donné que la pagination sur la première page et le contenu sur la deuxième page sont généralement différents, ils ne seront pas des doublons. Mais vous devez calculer que les deuxième, troisième et autres pages de pagination peuvent entrer dans la recherche et s'afficher sur toute demande pertinente. Mieux dans les pages de pagination, je recommanderais d'utiliser l'attribut canonique, dans le meilleur des cas, sur la page qui contient tous les produits afin que le robot n'inclue pas les pages de pagination dans la recherche. Les gens utilisent très souvent canonique sur la première page de pagination. Le robot arrive sur la deuxième page, voit le produit, voit le texte, n'inclut pas de pages dans la recherche et comprend grâce à l'attribut que c'est la première page de pagination qui doit être incluse dans les résultats de la recherche. Utilisez canonique et fermez le texte lui-même, je pense que ce n'est pas nécessaire.

Source (vidéo): Comment configurer l'indexation du site- Alexandre Smirnov

Magomed Tcherbizhev

Pour un certain nombre de raisons, les moteurs de recherche n'indexent pas toutes les pages du site ou, à l'inverse, en ajoutent des indésirables à l'index. En conséquence, il est presque impossible de trouver un site ayant le même nombre de pages dans Yandex et Google.

Si l'écart ne dépasse pas 10%, tout le monde n'y prête pas attention. Mais cette position est vraie pour les médias et les sites d'information, lorsque la perte d'une petite partie des pages n'affecte pas le trafic global. Mais pour les boutiques en ligne et autres sites marchands, l'absence de pages produits dans la recherche (même une sur dix) est un manque à gagner.

Par conséquent, il est important de vérifier l'indexation des pages dans Yandex et Google au moins une fois par mois, de comparer les résultats, d'identifier les pages manquantes dans la recherche et d'agir.

Problème avec la surveillance de l'indexation

Voir les pages indexées n'est pas difficile. Vous pouvez le faire en téléchargeant des rapports dans les panneaux des webmasters :

  • ("Indexation" / "Pages en recherche" / "Toutes les pages" / "Télécharger tableau XLS / CSV");

Caractéristiques de l'outil :

  • vérification simultanée des pages indexées dans Yandex et Google (ou dans un PS);
  • la possibilité de vérifier toutes les URL du site à la fois par ;
  • il n'y a pas de limite au nombre d'URL.

Particularités :

  • travaillez "dans le cloud" - pas besoin de télécharger et d'installer des logiciels ou des plugins ;
  • télécharger des rapports au format XLSX ;
  • notification par courrier de la fin de la collecte des données ;
  • stockage des rapports pour une durée illimitée sur le serveur PromoPult.

Nous revenons en douceur au marathon ... Pendant ce temps, nous avons créé un petit site sur un certain sujet, optimisé pour les moteurs de recherche et prêt pour une promotion ultérieure. Aujourd'hui, je dois écrire sur l'indexation initiale du site et sur tout ce qui s'y rapporte.

Dans l'article sur j'ai écrit sur le remplissage du site avec des articles et j'ai complètement oublié d'écrire sur la fréquence de remplissage. Tout le monde comprend que plus nous mettons à jour souvent (remplissons le site avec du contenu), mieux c'est. Il est conseillé de le faire tous les jours. par jour et par article. Si vous ne pouvez pas mettre à jour tous les jours, alors au moins tous les deux jours ou deux. C'est ainsi que nous montrons aux moteurs de recherche que le site est vivant et en constante évolution (il l'est).

Supposons que vous écriviez des articles, mais que pour une raison quelconque le site pas indexé depuis longtemps en PS. Habituellement, Google indexe rapidement les nouveaux sites, mais Yandex est parfois têtu, et pour indexation rapide vous devez prendre des mesures.

Comment indexer rapidement un site ?

Tout d'abord, vous devez faire.

1. Ajouter un site aux services de webmaster
Pour indexer rapidement un site dans Yandex, procédez comme suit :

Ajout d'un site à Yandex.Webmaster : http://webmaster.yandex.ru/
Nous confirmons les droits sur le site en faisant ce qui est nécessaire.

Ajoutez le fichier Sitemap.xml pour votre site : http://webmaster.yandex.ru/site/map.xml .

Vous pouvez également ajouter le site à adurilku. Mais en principe, ce n'est pas nécessaire, car lorsque vous l'ajoutez à Yandex.Webmaster, vous informez déjà Yandex du nouveau site.

Pour une indexation rapide, Google dispose également d'un panel de webmasters :

Ajoutez un fichier Sitemap.xml. Nous examinons les paramètres et les modifions si nécessaire.

Si vous ne pouvez pas ajouter aux outils pour les webmasters, vous pouvez simplement utiliser google addurilka.

2. Nous utilisons des services de ping (ping - services)
Les services de ping aident à indexer rapidement un article nouvellement publié, ou plutôt, ils sont conçus pour informer les moteurs de recherche et d'autres services de l'apparition de nouveaux articles sur votre site.

WordPress dispose d'un outil pour notifier automatiquement les services de mise à jour lorsque des mises à jour sont disponibles. nouvelle entrée. La liste des services ping est configurée dans WP Admin - "Paramètres" - "Écriture", Services de mise à jour.

Il existe d'énormes listes de services de mise à jour disponibles en ligne. Je ne vois pas l'intérêt d'une longue liste de services ping et je n'utilise que ces services :

http://rpc.pingomatic.com/
http://ping.blogs.yandex.ru/RPC2
http://blogsearch.google.com/ping/RPC2
http://ping.feedburner.com

En tant qu'outil d'indexation rapide du site.
Maintenant, il y a beaucoup de réseaux sociaux signets et de nombreux services et programmes de publication sur les réseaux sociaux. Signets. J'aime le programme Bug Maker. En général, travailler avec les réseaux sociaux la mise en signet est simple. Enregistrez des comptes dans les services de bookmarking, publiez l'URL de la page principale ou de toute page interne, écrivez une description, mots clés etc.

Acheter des liens. Pour accélérer l'indexation, vous pouvez acheter des liens. J'achète soit à Sapa, soit à GGL (tout dépend du site qu'il faut indexer). J'achète des ressources de confiance pour les personnes sur lesquelles le contenu est mis à jour plusieurs fois par jour et les robots de recherche y vont très souvent.

Sites propres, forums, sites d'amis, etc. Surtout, ne spammez pas. Vous avez besoin d'un petit nombre de liens pour être indexés. C'est aussi possible, mais il est peu probable que quelqu'un veuille changer avec une ressource non indexée

Quelques conseils :
- Pas de spam.
- N'utilisez pas l'exploration de répertoires pour les nouveaux sites. Des centaines (voire des milliers) de liens merdiques provenant d'annuaires et de tableaux d'affichage peuvent aider à indexer rapidement un nouveau site, mais cela n'aura aucun sens d'un tel site. La logique des moteurs de recherche est claire, si un tas de sites de merde renvoient vers un site, il est fort probable que ce site soit aussi un site de merde. Sans parler des donateurs moche, Yandex n'aime pas du tout la croissance de masse des liens rapides. Par conséquent, posez des liens de manière sélective, faites tout avec vos mains et avec amour.