Un moyen rapide de vérifier l'indexation des pages dans Yandex et Google. Index de recherche La page est-elle indexée

03.04.2021 l'Internet

Dans ce manuel, nous examinerons la question de l'ajout de notre nouveau site pour l'indexation à divers moteurs de recherche.

J'ai décidé de mentionner à la fois les moteurs de recherche populaires et ceux dont vous n'avez peut-être pas entendu parler.

Indexation du site dans Yandex

Pour ajouter un site à indexer, il suffit d'entrer l'url de la page principale et le captcha. Un captcha est composé de quelques chiffres qui protègent contre les enregistrements automatiques. Après avoir cliqué sur le bouton "ajouter", plusieurs options pour le développement des événements sont possibles.

1) Le message "votre site a été ajouté" indique que la ressource a été ajoutée avec succès à la file d'attente pour l'indexation dans Yandex.
2) Si le message "Votre hébergement ne répond pas" apparaît, cela signifie que votre serveur est en panne à ce moment. Vous pouvez essayer d'ajouter un site plus tard ou trouver un meilleur hébergement.
3) Mais si un message apparaît que "l'URL spécifiée est interdite pour l'indexation", alors les choses vont mal. Cela indique que des sanctions ont été imposées à votre ressource sous la forme d'une interdiction de site. Il est fort possible que le domaine que vous avez acheté ait déjà eu une fois un site sanctionné. En utilisant addurl, les webmasters vérifient souvent les sites pour une interdiction dans Yandex.

Indexation du site dans Google (Google)

Le deuxième plus important pour notre site est le moteur de recherche Système Google(Google). Le processus d'ajout d'un site à l'indexation dans Google est exactement le même que sur Yandex. Google a également son propre adurilka, qui se trouve à : https://www.google.com/webmasters/tools/submit-url.

Vous devez également saisir un captcha lors de l'ajout. Mais il y a deux différences. Si dans Yandex, vous pouvez simplement ajouter une URL sans gestes inutiles, alors dans Google, vous devez être connecté à votre compte. Sinon ça ne marchera pas. Par conséquent, si vous n'y avez pas encore de compte, vous devrez en créer un. La deuxième différence entre Google et Yandex est la vitesse d'indexation. Google indexe les sites Web très rapidement.

Indexation du site dans Rambler (Rambler.ru)

Bien sûr, Rambler n'est plus ce qu'il était, comme beaucoup le diront, et donne pas mal de trafic. Et de toute façon, pourquoi les ignorer ? Le processus d'indexation des sites dans Rambler est le plus long, parmi les autres moteurs de recherche nationaux. Oui, et son adurilka ne fonctionne pas depuis longtemps, c'était à: robot.rambler.ru/cgi-bin/addsite.cgi

Il utilise la base de données de recherche Yandex depuis longtemps. Par conséquent, pour entrer dans l'index Rambler.ru, il suffit de vous ajouter à Yandex.

Indexation du site dans Mail.ru (Mail)

Le moteur de recherche Mail.ru dispose également d'un bureau de webmaster. L'ajout d'un site pour l'indexation dans Mail.ru se fait via le formulaire addurl, qui se trouve à l'adresse : go.mail.ru/addurl

De plus, comme avec Google, pour créer une application d'indexation, vous devez créer votre propre compte et vous y connecter. Sinon ça ne marchera pas. Mile a récemment essayé de développer ses propres outils pour les webmasters.

Ci-dessus, nous avons examiné les principaux moteurs de recherche nationaux dans lesquels nous aimerions indexer notre site. Les PS suivants sont plus destinés à votre érudition générale en matière de référencement qu'à des actions spécifiques.

Moteur de recherche Aport.ru (Aport)

Aport.ru était autrefois un moteur de recherche, avec sa propre base d'index et adurilka. Maintenant, ils en ont fait un moteur de recherche de produits, dans lequel vous pouvez comparer les prix des biens et des services.

Moteur de recherche Nigma.ru (Nigma)

Nigma.ru est notre moteur de recherche intelligent russe. Le volume total de son trafic est d'environ trois millions de requêtes par jour. Évidemment, le trafic en provenance de Nigma ne doit pas être négligé. Vous pouvez ajouter votre site pour l'indexation dans Nigma sur nigma.ru/index_menu.php?menu_element=add_site.

Navigateur multimédia Tagoo.ru

Le système Tagoo.ru est un moteur de recherche multimédia qui recherche des données multimédias. Ce sont des contenus musicaux, des vidéos et des programmes. Pour que votre site soit indexé par le système Tagoo, vous devez utiliser le formulaire d'ajout : tagoo.ru/ru/webmaster.php?mode=add_site.

Moteur de recherche Turtle.ru (Tortue)

Le moteur de recherche international Turtle (Turtle) recherche les pays de la CEI dans n'importe quelle langue. Les ressources situées sur des zones de domaine telles que : ru, su, ua, am, az, ge, by, kz, kg, uz, md sont acceptées pour l'indexation. Pour ajouter un site d'indexation dans la tortue, vous devez utiliser l'adurilla : http://www.turtle.ru/add.html. Il est conseillé d'attendre un message concernant l'acceptation de votre site. Vous ne pouvez pas ajouter, mais vous ne saurez pas.

Moteurs de recherche étrangers

Si les moteurs de recherche nationaux étaient au-dessus, alors ci-dessous sera une liste de moteurs de recherche étrangers.

Moteur de recherche Yahoo.com (Yahoo)

Moteur de recherche Bing.com (Bing)

moteur de recherche Système Bing appartient à Microsoft Corporation et a été créé pour remplacer Live Search. Microsoft espère que la nouvelle idée originale sera beaucoup plus populaire que son prédécesseur. Si vous souhaitez que votre site Bing.com soit indexé, vous pouvez le faire à l'adresse http://www.bing.com/toolbox/submit-site-url .

Moteurs de recherche ukrainiens

Et en conclusion de mon examen, je donnerai deux moteurs de recherche populaires en Ukraine.

Moteur de recherche ukrainien Meta.ua (Meta)

Il est très important que toutes les pages de votre site soient indexées dans moteurs de recherche(Yandex, Google, etc.).

Premièrement, si la page n'est pas dans l'index, alors les gens ne pourront pas la trouver et vous avez perdu du temps (et peut-être de l'argent) sur sa création, son remplissage et sa conception. Chaque page de l'index est une source de visiteurs.
Deuxièmement, si la page n'est pas dans l'index, cela peut indiquer des problèmes techniques sur le site, tels que du contenu dupliqué, des problèmes de site ou d'hébergement.
Troisièmement, cette page peut jouer un rôle technique, par exemple, participer à un système de liens (ou contenir des liens payants pour lesquels vous ne recevrez pas d'argent si la page n'est pas dans l'index).

En travaillant avec des clients, j'ai rencontré à plusieurs reprises le fait qu'en raison de problèmes d'indexation, il y avait de mauvaises positions. Ce problème technique, que je corrige généralement au cours du premier mois de coopération, grâce à quoi, à partir du 2ème mois, il y a une augmentation notable des visiteurs et des positions.

Ci-dessous, j'examinerai les moyens manuels et automatisés de vérifier l'indexation des pages dans Yandex et Google. je vais te montrer comment vérifier l'indexation d'un site Web en général et chaque page séparément.

Comment connaître le nombre de pages du site

Cela peut se faire de plusieurs manières :

Maintenant que nous connaissons le nombre réel de pages, nous devons vérifier combien d'entre elles sont indexées dans Yandex et Google

Nous regardons l'indexation du site dans son ensemble

Dans ce cas, nous saurons combien de pages du site sont indexées dans le moteur de recherche. Qu'est-ce que cela nous donne ? Connaissant le nombre réel de pages du site, nous pouvons comparer s'il correspond au nombre de pages indexées. Et si cela correspond, alors tout est en ordre, et si ce n'est pas le cas, vous devez résoudre le problème et savoir quelles pages manquent (ou quelles pages ont des doublons).

Indexation du site dans Yandex

Plusieurs façons.

Comme vous pouvez le voir, les données sont légèrement différentes. Cela est dû au fait que l'url : construction de votre site affiche non seulement des pages, mais d'autres types de fichiers (doc, xls, jpg, etc.). Le webmaster indique exactement le nombre de pages.

Indexation du site dans Google

Ici, de la même manière avec Yandex, il y a 2 façons :

Utiliser manuellement le site : la construction de votre site. L'effet sera à peu près le même qu'avec Yandex.
Utilisation des outils Google pour les webmasters https://www.google.com/webmasters/(similaire à Yandex.Webmaster)

voies automatiques

Et après

Maintenant que nous savons combien de pages du nombre réel sont indexées, il peut y avoir 3 situations :

Le nombre de pages dans les moteurs de recherche et sur le site est le même. C'est une option idéale, donc tout est en ordre avec le site.
Le nombre de pages indexées est moindre. Cela signifie qu'il y a des problèmes avec le site (le problème le plus courant est le contenu non informatif ou non unique)
Le nombre de pages indexées est plus important. Vous avez très probablement un problème avec les pages en double, c'est-à-dire une page est accessible par plusieurs adresses. C'est mauvais pour la promotion, car le poids statique de la page est flou et en plus, il y a beaucoup de pages au contenu répétitif.

Pour diagnostiquer davantage le site, nous devons savoir quelles pages sont correctement indexées et lesquelles ne sont pas incluses dans l'index.

Comment vérifier l'indexation d'une page

Nous pouvons en avoir besoin lorsque nous voulons vérifier une page spécifique sur notre site (par exemple, récemment publiée) ou une page sur le site de quelqu'un d'autre (par exemple, où nous avons acheté un lien et attendons qu'il soit indexé)

Comment vérifier l'indexation de toutes les pages individuellement

Dans ce cas, nous vérifierons toutes les pages du site pour l'indexation à la fois et en conséquence nous découvrirons quelles pages spécifiques ne sont pas indexées dans le moteur de recherche.

Ici, nous avons besoin de connaître non seulement le nombre de pages réelles sur le site, mais également une liste des adresses de ces pages (leurs urls). C'est probablement la partie la plus difficile de cet article. Nous avons semblé obtenir la liste des pages lorsque nous avons généré le plan du site, mais les adresses n'y sont pas dans leur forme pure et vous devez être capable de travailler avec une sorte de programme de traitement de données pour les extraire. Par conséquent, nous utiliserons un autre programme.

Comment obtenir une liste de toutes les pages d'un site

Avant de collecter des liens, vous devez configurer le paramètre Exclude Patterns. Ceci est fait pour exclure les liens inutiles lors de la collecte, par exemple, dans mon cas, lors de la collecte de nombreuses adresses du formulaire : https://website/prodvizhenie/kak-prodvigayut-sajjty.html? répondre à com=324#respond qui indiquent un commentaire sur la page. Et tout ce dont j'ai besoin est l'URL de la page. J'ai donc mis en place une exclusion d'adresses par le masque *replytocom* :

Ensuite, nous commençons à collecter les URL et lorsque le programme a terminé de les collecter, accédez à l'onglet Yahoo Map / Text et copiez les adresses à partir de là (le bouton Enregistrer ne fonctionne pas, car nous utilisons version gratuite programmes)

Nous avons maintenant les adresses de toutes les pages.

Comment vérifier automatiquement l'indexation des pages

Tout est simple ici. Après avoir démarré le programme, ajoutez la liste des urls de votre site collectées à la dernière étape et ajoutez-les à la liste des urls initiales. Le programme vous permet de vérifier l'indexation dans Yandex, Google et Rambler, de sélectionner le moteur de recherche dont nous avons besoin et d'exécuter la vérification :

Après avoir obtenu une liste de pages qui n'étaient pas incluses dans l'index, nous devons comprendre pourquoi cela s'est produit. Si tout est en ordre avec la page, alors pour qu'elle entre dans l'index, vous pouvez acheter des liens vers celle-ci ou plusieurs retweets à partir de comptes pompés.

Conclusion

La possibilité de vérifier l'indexation des pages de votre site vous permettra de travailler de manière plus productive avec les moteurs de recherche, ainsi que de calculer les problèmes existants avec le site.

Qu'est-ce que l'indexation ? Il s'agit du processus consistant à transmettre le contenu des pages de votre site au robot et à inclure ce contenu dans les résultats de recherche. Si nous nous tournons vers les chiffres, la base de données du robot d'indexation contient des milliards d'adresses de pages de sites. Chaque jour, le robot demande des milliards d'adresses de ce type.

Mais tout ce grand processus d'indexation d'Internet peut être divisé en petites étapes :

Tout d'abord, le robot d'indexation doit savoir quand une page de votre site est apparue. Par exemple, en indexant d'autres pages sur Internet, en trouvant des liens, ou en téléchargeant le set nemp. Nous avons pris connaissance de la page, après quoi nous prévoyons de contourner cette page, d'envoyer des données à votre serveur pour demander cette page du site, d'obtenir le contenu et de l'inclure dans les résultats de recherche.

Tout ce processus est le processus d'échange du robot d'indexation avec votre site. Si les requêtes envoyées par le robot d'indexation ne changent pratiquement pas, et que seule l'adresse de la page change, alors la réponse de votre serveur à une requête de page par le robot dépend de nombreux facteurs :

depuis les paramètres de votre CMS ;
depuis les paramètres de l'hébergeur ;
du travail d'un prestataire intermédiaire.

Cette réponse est en train de changer. Tout d'abord, lors de la demande d'une page, le robot reçoit la réponse de service suivante de votre site :

Ce sont des en-têtes HTTP. Ils contiennent diverses informations de service qui indiquent clairement au robot quel contenu sera transmis maintenant.

Je veux me concentrer sur le premier en-tête - il s'agit d'un code de réponse HTTP qui indique au robot d'indexation le statut de la page demandée par le robot.

Il existe plusieurs dizaines de tels statuts de codes HTTP :

Je vais parler des plus populaires. Le code de réponse le plus courant est HTTP-200. La page est disponible, elle peut être indexée, incluse dans les résultats de recherche, tout va bien.

L'opposé de ce statut est HTTP-404. La page manque sur le site, il n'y a rien à indexer, il n'y a rien à inclure dans la recherche non plus. Lors de la modification de la structure du site et de la modification des adresses des pages internes, nous vous recommandons de configurer un serveur 301 pour une redirection. Juste il fera remarquer au robot que ancienne page déplacé vers une nouvelle adresse et il est nécessaire d'inclure la nouvelle adresse dans les résultats de la recherche.

Si le contenu de la page n'a pas changé depuis la dernière visite de la page par le robot, il est préférable de renvoyer un code HTTP-304. Le robot comprendra qu'il n'est pas nécessaire de mettre à jour la page dans les résultats de recherche et le contenu ne sera pas transféré non plus.

Lorsque votre site est disponible pendant une courte période, par exemple lorsque vous effectuez des travaux sur le serveur, il est préférable de configurer HTTP-503. Il indiquera au robot que le site et le serveur ne sont pas disponibles actuellement, vous devez y aller un peu plus tard. En cas d'indisponibilité de courte durée, cela empêchera les pages d'être exclues des résultats de recherche.

En plus de ces codes HTTP, statuts de page, vous devez également obtenir directement le contenu de la page elle-même. Si pour un visiteur normal la page ressemble à ceci :

ce sont des images, du texte, de la navigation, tout est très beau, alors pour le robot d'indexation toute page n'est qu'un ensemble de code source, du code HTML :

Diverses balises méta, contenu textuel, liens, scripts, beaucoup d'informations. Le robot le collecte et l'inclut dans les résultats de recherche. Il semble que tout soit simple, ils ont demandé une page - ils ont obtenu le statut, ils ont obtenu le contenu, ils l'ont inclus dans la recherche.

Mais pas sans raison dans le service service de recherche Yandex reçoit plus de 500 lettres de webmasters et de propriétaires de sites indiquant que certains problèmes sont survenus avec la réponse du serveur.

Tous ces problèmes peuvent être divisés en deux parties :

Ce sont des problèmes avec le code de réponse HTTP et des problèmes avec le code HTML, avec le contenu direct des pages. Il peut y avoir plusieurs raisons à ces problèmes. Le plus courant est le blocage du robot d'indexation par l'hébergeur.

Par exemple, vous avez lancé un site Web, ajouté nouvelle rubrique. Le robot commence à visiter votre site plus souvent, augmente la charge sur le serveur. L'hébergeur le voit sur sa surveillance, bloque le robot d'indexation, et donc le robot ne peut pas accéder à votre site. Vous allez à votre ressource - tout va bien, tout fonctionne, les pages sont belles, tout s'ouvre, tout est super, le robot ne peut pas indexer le site en même temps. Si le site est momentanément indisponible, par exemple si vous avez oublié de payer Nom de domaine Le site est indisponible depuis quelques jours. Le robot arrive sur le site, il n'est pas disponible, dans de telles conditions, il peut littéralement disparaître des résultats de la recherche après un certain temps.

Incorrect Paramètres du CMS, par exemple, lors de la mise à jour ou du passage à un autre CMS, lors de la mise à jour du design, ils peuvent également faire disparaître les pages de votre site des résultats de recherche si les paramètres sont incorrects. Par exemple, présence d'une balise meta d'interdiction dans le code source des pages du site, paramétrage incorrect de l'attribut canonique. Vérifiez qu'après toutes les modifications que vous apportez au site, les pages sont disponibles pour le robot.

L'outil de Yandex vous y aidera. Webmaster pour vérifier la réponse du serveur :

Vous pouvez voir quels en-têtes HTTP votre serveur renvoie au robot, directement le contenu des pages.

La section "indexation" contient des statistiques, où vous pouvez voir quelles pages sont exclues, la dynamique des changements de ces indicateurs, et faire divers tris et filtrages.

Aussi, aujourd'hui j'ai parlé de cette section, la section "diagnostic du site". Si votre site est devenu indisponible pour le robot, vous recevrez une notification et des recommandations. Comment cela peut-il être corrigé ? S'il n'y a pas de tels problèmes, le site est disponible, répond aux codes-200, contient un contenu correct, puis le robot démarre dans mode automatique visiter toutes les pages qu'il reconnaît. Cela ne conduit pas toujours aux conséquences souhaitées, de sorte que l'activité du robot peut être limitée d'une certaine manière. Il existe un fichier robots.txt pour cela. Nous en parlerons dans la section suivante.

Robots.txt

Le fichier robots.txt lui-même est petit Document texte, il se trouve dans le dossier racine du site et contient des règles strictes pour le robot d'indexation qui doivent être suivies lors de l'exploration du site. Les avantages du fichier robots.txt sont qu'il ne nécessite pas de connaissances particulières et particulières pour l'utiliser.

Il suffit d'ouvrir le Bloc-notes, d'entrer certaines règles de format, puis d'enregistrer simplement le fichier sur le serveur. Pendant la journée, le robot commence à utiliser ces règles.

Si nous prenons un exemple de fichier robots.txt simple, le voici, juste sur la diapositive suivante :

La directive User-Agent:" indique à quels robots la règle est destinée, les directives allow/deny et les directives auxiliaires Sitemap et Host. Un peu de théorie, je veux passer à la pratique.

Il y a quelques mois, je voulais acheter un podomètre, alors je me suis tourné vers Yandex. Marché de l'aide au choix. Déplacé de la page principale de Yandex vers Yandex. Marché et est arrivé à la page principale du service.

Ci-dessous vous voyez l'adresse de la page où je suis allé. A l'adresse du service lui-même, l'identifiant de moi, en tant qu'utilisateur sur le site, a également été ajouté.

Puis je suis allé dans la section "catalogue"

Sélectionnez la sous-section souhaitée et configurez les options de tri, le prix, le filtre, comment trier, le fabricant.

J'ai reçu une liste de produits et l'adresse de la page a déjà augmenté.

Je suis allé au produit souhaité, j'ai cliqué sur le bouton "ajouter au panier" et j'ai poursuivi le paiement.

Au cours de mon court voyage, les adresses des pages ont changé d'une certaine manière.

On leur a ajouté des paramètres de service, qui m'identifiaient en tant qu'utilisateur, mettaient en place un tri, indiquaient au propriétaire du site d'où je suis allé sur telle ou telle page du site.

De telles pages, des pages de service, je pense, n'intéresseront pas beaucoup les utilisateurs des moteurs de recherche. Mais s'ils sont disponibles pour le robot d'indexation, ils peuvent entrer dans la recherche, car le robot se comporte, en fait, comme un utilisateur.

Il va sur une page, voit un lien sur lequel vous pouvez cliquer, s'y rend, charge les données dans sa base de données de robots et continue de contourner l'ensemble du site. La même catégorie d'adresses de ce type peut également inclure des données personnelles d'utilisateurs, telles que des informations de livraison ou des données de contact d'utilisateurs.

Naturellement, il vaut mieux les interdire. Juste pour cela, le fichier robots.txt vous aidera. Vous pouvez venir sur votre site ce soir après la fin du Webmaster, cliquer, voir quelles pages sont vraiment disponibles.

Afin de vérifier robots.txt, il existe un outil spécial dans Webmaster :

Vous pouvez télécharger, entrer des adresses de pages, voir si elles sont disponibles pour le robot ou non.

Faites quelques changements, voyez comment le robot réagit à ces changements.

Erreurs lors de l'utilisation de robots.txt

En plus d'un tel impact positif - fermeture des pages de service, robots.txt, s'il est mal géré, peut jouer une blague cruelle.

Premièrement, le problème le plus courant lors de l'utilisation de robots.txt est la fermeture des pages du site qui sont vraiment nécessaires, celles qui devraient être recherchées et affichées sur les requêtes. Avant d'apporter des modifications à robots.txt, assurez-vous de vérifier si la page que vous souhaitez fermer ne participe pas, si elle s'affiche pour les requêtes dans la recherche. Peut-être qu'une page avec certains paramètres se trouve dans les résultats de la recherche et que les visiteurs y accèdent à partir de la recherche. Par conséquent, assurez-vous de vérifier avant d'utiliser et de modifier robots.txt.

Deuxièmement, si des adresses cyrilliques sont utilisées sur votre site, vous ne pourrez pas les spécifier directement dans robots.txt, elles doivent être encodées. Puisque robots.txt est une norme internationale, tous les robots d'indexation la suivent, ils devront certainement être encodés. L'alphabet cyrillique ne peut pas être spécifié explicitement.

Le troisième problème le plus courant concerne les règles différentes pour différents robots de différents moteurs de recherche. Pour un robot d'indexation, toutes les pages d'indexation étaient fermées, pour le second, rien n'était fermé du tout. En conséquence, tout va bien dans un moteur de recherche, dans la recherche page souhaitée, et dans un autre moteur de recherche, il peut y avoir des ordures, diverses pages d'ordures, autre chose. Assurez-vous de suivre si vous définissez une interdiction, cela doit être fait pour tous les robots d'indexation.

Le quatrième problème le plus courant est l'utilisation de la directive Crawl-delay lorsqu'elle n'est pas nécessaire. Cette directive permet d'influer sur la propreté des requêtes de la part du robot d'indexation. Ce exemple pratique, un petit site, placé dessus sur un petit hébergement, tout va bien. ajoutée grand catalogue, le robot est venu, a vu un tas de nouvelles pages, commence à accéder au site plus souvent, augmente la charge, le télécharge et le site devient indisponible. On met la directive Crawl-delay, le robot voit ça, réduit la charge, tout va bien, le site fonctionne, tout est parfaitement indexé, c'est dans les résultats de recherche. Au bout d'un certain temps, le site grossit encore plus, est transféré vers un nouvel hébergement qui est prêt à faire face à ces demandes, avec un grand nombre de requêtes, et la directive Crawl-delay est oubliée pour être supprimée. En conséquence, le robot comprend que de nombreuses pages sont apparues sur votre site, mais ne peut pas les indexer simplement à cause de la directive définie. Si vous avez déjà utilisé la directive Crawl-delay, vérifiez qu'elle a disparu maintenant et que votre service est prêt à gérer la charge du robot d'indexation.

En plus des fonctionnalités décrites, le fichier robots.txt vous permet également de résoudre deux tâches très importantes - se débarrasser des doublons sur le site et spécifier l'adresse du miroir principal. C'est exactement ce dont nous parlerons dans la section suivante.

Double

Par doublons, nous entendons plusieurs pages d'un même site qui contiennent un contenu absolument identique. L'exemple le plus courant est celui des pages avec et sans barre oblique à la fin de l'adresse. En outre, un doublon peut être compris comme le même produit dans différentes catégories.

Par exemple, les patins à roulettes peuvent être pour les filles, pour les garçons, le même modèle peut être en deux sections en même temps. Et, troisièmement, ce sont des pages avec un paramètre insignifiant. Comme dans l'exemple avec Yandex. Commercialisez cette page "identifiant de session", ce paramètre ne modifie en principe pas le contenu de la page.

Pour détecter les doublons, voir à quelles pages le robot accède, vous pouvez utiliser Yandex. Webmestre.

En plus des statistiques, il existe également des adresses de pages que le robot a chargées. Vous voyez le code et le dernier appel.

Problème causé par les doublons

Pourquoi les doublons sont-ils mauvais ?

Premièrement, le robot commence à accéder à des pages absolument identiques du site, ce qui crée une charge supplémentaire non seulement sur votre serveur, mais affecte également le contournement du site dans son ensemble. Le robot commence à prêter attention aux pages en double, et non aux pages qui doivent être indexées et incluses dans les résultats de recherche.

Le deuxième problème est que les pages en double, si elles sont disponibles pour le robot, peuvent entrer dans les résultats de recherche et entrer en concurrence avec les pages principales pour les requêtes, ce qui, bien sûr, peut affecter négativement le site trouvé pour certaines requêtes.

Comment gérer les doublons ?

Avant toute chose, je vous conseille d'utiliser la balise "canonique" afin de pointer le robot vers la page principale, canonique, qui doit être indexée et être dans la recherche de requêtes.

Dans le second cas, vous pouvez utiliser les redirections de serveur 301, par exemple, pour les situations avec une barre oblique à la fin de l'adresse et sans barre oblique. Nous avons mis en place une redirection - il n'y a pas de doublons.

Et troisièmement, comme je l'ai dit, c'est le fichier robots.txt. Vous pouvez utiliser à la fois les directives disable et la directive Clean-param pour vous débarrasser des paramètres sans importance.

Miroirs de sites

La deuxième tâche que robots.txt vous permet de résoudre est de pointer le robot vers l'adresse du miroir principal.

Les miroirs sont un groupe de sites absolument identiques, comme des doublons, seulement deux sites différents. Les webmasters rencontrent généralement des miroirs dans deux cas : lorsqu'ils souhaitent passer à un nouveau domaine ou lorsqu'un utilisateur doit mettre plusieurs adresses de site à disposition.

Par exemple, vous savez que les utilisateurs, lorsqu'ils saisissent votre adresse, l'adresse de votre site Web dans barre d'adresse, font souvent la même erreur - ils sont scellés, ils mettent le mauvais caractère ou autre chose. Vous pouvez acheter un domaine supplémentaire afin de montrer aux utilisateurs non pas un stub d'un fournisseur d'hébergement, mais de montrer le site sur lequel ils voulaient vraiment aller.

Arrêtons-nous sur le premier point, car c'est avec lui que les problèmes surviennent le plus souvent lorsque l'on travaille avec des miroirs.

Je vous conseille d'effectuer l'ensemble du processus de déménagement instruction suivante. Un petit guide pour vous aider à éviter problèmes divers lors du passage à un nouveau nom de domaine :

Tout d'abord, vous devez rendre les sites accessibles au robot d'indexation et y placer un contenu absolument identique. Assurez-vous également que le robot connaît l'existence des sites. Le moyen le plus simple est de les ajouter à Yandex. Webmaster et confirmez-leur les droits.

Deuxièmement, en utilisant la directive Host, pointez le robot vers l'adresse du miroir principal - celui qui doit être indexé et figurer dans les résultats de la recherche.

Nous attendons le collage et le transfert de tous les indicateurs de l'ancien site vers le nouveau.

Après cela, vous pouvez déjà définir une redirection de l'ancienne adresse vers la nouvelle. Instructions simples, si vous déménagez, assurez-vous de l'utiliser. J'espère qu'il n'y a pas de problèmes avec
en mouvement.

Mais, bien sûr, des erreurs se produisent lorsque vous travaillez avec des miroirs.

Tout d'abord, le problème principal est le manque d'instructions explicites pour le robot d'indexation à l'adresse du miroir principal, l'adresse qui devrait être dans la recherche. Vérifiez sur vos sites qu'ils ont une directive host dans robots.txt, et cela mène à l'adresse que vous voulez voir dans la recherche.

Le deuxième problème le plus courant consiste à utiliser une redirection pour changer le miroir maître dans un groupe de miroirs existant. Ce qui se passe? L'ancienne adresse, puisqu'elle redirige, n'est pas indexée par le robot, elle est exclue des résultats de recherche. Dans le même temps, le nouveau site n'entre pas dans la recherche, car il s'agit d'un miroir non principal. Vous perdez du trafic, vous perdez des visiteurs, je pense que personne n'en a besoin.

Et le troisième problème est l'inaccessibilité de l'un des miroirs lors du déplacement. L'exemple le plus courant dans cette situation est lorsque le contenu du site a été copié vers une nouvelle adresse et que l'ancienne adresse a simplement été désactivée, le nom de domaine n'a pas été payé et il est devenu indisponible. Naturellement, de tels sites ne seront pas collés, ils doivent être disponibles pour le robot d'indexation.

Liens utiles en action :

Plus informations utiles vous trouverez dans le service Yandex.Help.
Tous les outils dont j'ai parlé et plus encore - il existe une version bêta de Yandex.Webmaster.

Réponses aux questions

Merci pour le rapport. Dois-je fermer l'indexation des fichiers CSS pour le robot dans robots.txt ou non ?

Pour le moment, nous vous déconseillons de les fermer. Oui, il vaut mieux laisser CSS, JavaScript, car maintenant nous travaillons pour que le robot d'indexation reconnaisse à la fois les scripts de votre site et les styles, voyez-le comme un visiteur d'un navigateur ordinaire.

"Dites-moi, si les urls des adresses des sites sont les mêmes, pour l'ancien et pour le nouveau, est-ce normal ?".

C'est bon. En fait, il vous suffit de mettre à jour le design, d'ajouter du contenu.

« Le site a une catégorie et il se compose de plusieurs pages : slash, page1, page2, jusqu'à 10, par exemple. Toutes les pages ont un texte de catégorie, et il s'avère être en double. Ce texte sera-t-il un doublon ou devrait-il être fermé d'une manière ou d'une autre, un nouvel index sur la deuxième page et les suivantes ?

Tout d'abord, étant donné que la pagination sur la première page et le contenu sur la deuxième page sont généralement différents, ils ne seront pas des doublons. Mais vous devez calculer que les deuxième, troisième et autres pages de pagination peuvent entrer dans la recherche et s'afficher sur toute demande pertinente. Mieux dans les pages de pagination, je recommanderais d'utiliser l'attribut canonique, dans le meilleur des cas, sur la page qui contient tous les produits afin que le robot n'inclue pas les pages de pagination dans la recherche. Les gens utilisent très souvent canonique sur la première page de pagination. Le robot arrive sur la deuxième page, voit le produit, voit le texte, n'inclut pas de pages dans la recherche et comprend grâce à l'attribut que c'est la première page de pagination qui doit être incluse dans les résultats de la recherche. Utilisez canonique et fermez le texte lui-même, je pense que ce n'est pas nécessaire.

Source (vidéo): Comment configurer l'indexation du site- Alexandre Smirnov

Magomed Tcherbizhev

À partir de ce matériel, vous apprendrez :

Qu'est-ce que l'indexation
Comment ajouter un site à la base de données
Comment accélérer l'indexation

Qu'est-ce que l'indexation ?

Nous vous avons déjà parlé de. En bref, ce sont des réponses aux requêtes des utilisateurs qu'ils tapent dans un moteur de recherche. Vous marquez "acheter un éléphant" - obtenez des sites qui proposent des éléphants en gros et au détail. Les fenêtres en plastique ou les call-girls pour de telles demandes, Yandex ou Google ne s'afficheront pas. Et maintenant attention, la question est : est-ce que chaque site rentre dans les résultats de recherche ? Non, pas tout le monde. Au minimum, il est nécessaire que les moteurs de recherche connaissent l'existence de ce site et le contenu qui y est publié. Après tout, comment pouvez-vous montrer quelque chose que personne ne connaît ? C'est à ça que servent les bases de données. En bref, ajouter un site avec son contenu à cette base de données s'appelle l'indexation. Comment se fait l'indexation ? Le robot Yandex ou Google agit selon ses propres algorithmes : il recherche des informations sur votre site (ces informations incluent les articles clés, les textes, les photos, etc. - en un mot, tout le contenu). C'est comme une radiographie, il traverse chaque page du site, l'analyse, le scanne et ajoute votre site à la base de données. Il apparaîtra désormais dans Résultats de recherche et être affiché en réponse aux demandes des utilisateurs. Et dans quelles positions - chez les dirigeants ou les étrangers - dépend du contenu dont il est rempli. Bien sûr, l'indexation du site est tout simplement nécessaire. Lorsque les moteurs de recherche commencent à voir votre site, les visiteurs y viennent et il grandit.

Comment ajouter un site à la base de données ?

Disons que vous avez créé le site Bestbestsite.rf. Rempli, bien sûr, avec le meilleur contenu et j'ai hâte qu'il atteigne le sommet. Pour que le site et son contenu soient indexés et entrés dans la base de données, deux méthodes peuvent être utilisées.

Attendez l'auto-indexation. Tôt ou tard, les robots trouveront votre site - pour cela, il vous suffit de laisser des liens actifs vers celui-ci à partir d'autres ressources. On pense que plus il y a de liens, plus l'indexation sera rapide.
Ajoutez un site manuellement en remplissant un formulaire spécial dans le moteur de recherche. Là, vous devez spécifier un lien vers le site et information brèveà propos de lui. Dans Yandex, par exemple, cela se fait dans le serviceWebmestre Yandex Sur la page Signaler un nouveau site .

Au même endroit dans Webmaster, vous pouvez ensuite suivre les statistiques des requêtes qui amènent les utilisateurs sur votre site. Dans Google aussi, tout est simple - vous pouvez enregistrer un site en utilisant le lienCentre Google pour les webmasters . Quelle est la vitesse d'indexation ? Il est difficile de dire les chiffres exacts - c'est tout aussi chanceux. Mais une chose est sûre : Yandex indexe plus lentement que Google. Il y avait des cas où l'indexation y était attendue pendant plusieurs semaines.

Comment accélérer l'indexation ?

Les algorithmes des moteurs de recherche sont une chose imprévisible et, comme déjà mentionné, il n'y a pas de recette exacte. Nous pouvons vous conseiller des méthodes éprouvées (essentiellement les mêmes qui affectent la promotion du site Web dans les résultats de recherche)

Un contenu unique que les moteurs de recherche adorent tant. Un point : si vous avez posté un article sur un site ou un blog et qu'il n'a pas encore été indexé, n'importe qui peut théoriquement le voler et l'héberger. Si sur un autre site l'article est indexé plus tôt, vous êtes dans l'intervalle. Votre article sera considéré comme non unique, et le concurrent restera en chocolat.
Structure claire du site. Suivez la règle des trois clics : vous pouvez accéder à chaque page depuis la page principale en trois clics maximum. Moins c'est bien, plus c'est mieux non ! Cela permettra aux moteurs de recherche d'indexer plus facilement non seulement la page principale, mais également d'autres pages.
Lien depuis pages internes- utile pour les visiteurs et le robot.
Diffusez des messages dans des répertoires RSS. Tous vos messages seront dupliqués dans des répertoires RSS, où des flux RSS sont ajoutés. Ce sont des flux pour vous abonner aux mises à jour de blog ou de site Web afin que vous receviez les dernières nouvelles dans votre courrier. Avec leur aide, le moteur de recherche trouvera rapidement vos nouveaux articles et les indexera.

Voici un exemple d'indexation réussie

Il y a une semaine, un article sur une arme à feu est apparu sur l'un des sites. VPO-213 . Il n'y avait pratiquement aucune information sur cette arme sur le Web - elle n'a pas encore été mise en vente. Il n'y avait qu'une courte présentation dans une vidéo YouTube. En conséquence, le texte était tout à fait unique et presque le seul sur Internet sur ce sujet. Vers minuit, le texte a été publié sur le site (même pas sur page d'accueil!) et a été indexé en peu de temps. À dix heures et demie le lendemain matin, l'article occupait la troisième place dans les résultats de recherche Yandex. À 9h50, elle est devenue la première et occupe ces postes jusqu'à présent.

Dans l'ensemble, si votre ressource est bonne, bien faite, son indexation ne devrait poser aucun problème. Si le site, bien que pas à 100%, mais répond aux exigences des moteurs de recherche - «pour les gens», alors ils seront heureux de vous regarder à la lumière et d'indexer tout ce qui sera ajouté.

Quoi qu'il en soit, la première étape de la promotion d'un site consiste à l'ajouter à l'index PS. Jusqu'à ce que la ressource soit indexée, dans l'ensemble, il n'y a rien à promouvoir, car les moteurs de recherche ne le sauront pas du tout. Par conséquent, dans cet article, je vais examiner ce qu'est l'indexation de site dans Yandex et comment soumettre une ressource pour indexation. Je vous expliquerai également comment vérifier si un site ou une page distincte est inclus dans l'index Yandex et quoi faire pour accélérer l'indexation par Yandex.

L'indexation d'un site dans Yandex est un contournement de votre site par les robots du moteur de recherche yandex, et la saisie de tous pages ouvertesà la base. L'araignée du moteur de recherche russe ajoute des données sur le site à la base de données : ses pages, ses images, ses vidéos, ses documents disponibles pour la recherche. En outre, le robot de recherche est engagé dans l'indexation des liens et d'autres éléments qui ne sont pas fermés avec des balises et des fichiers spéciaux.

Les principaux moyens d'indexer une ressource :

Forcé - vous devez envoyer le site pour indexation dans Yandex via un formulaire spécial.

Naturel - l'araignée de recherche parvient à trouver votre site par elle-même, en se déplaçant à partir de ressources externes liées au site Web.

Le temps d'indexation d'un site dans Yandex est différent pour tout le monde et peut aller de quelques heures à plusieurs semaines.

Cela dépend de nombreux facteurs : quelles valeurs se trouvent dans Sitemap.xml, la fréquence à laquelle la ressource est remplie, la fréquence à laquelle la mention du site apparaît sur d'autres ressources. Le processus d'indexation est cyclique, de sorte que le robot viendra à vous à des intervalles de temps (pratiquement) égaux. Mais avec quelle fréquence - dépend des facteurs mentionnés ci-dessus et du robot spécifique.

L'araignée peut indexer l'intégralité du site Web (s'il est petit) ou une section distincte (cela s'applique aux magasins ou aux médias en ligne). Sur des ressources fréquemment mises à jour, telles que les médias et portails d'information live, les soi-disant robots rapides pour l'indexation rapide des sites dans Yandex.

Parfois, le projet peut rencontrer des problèmes techniques (ou des problèmes avec le serveur), auquel cas l'indexation yandex du site n'aura pas lieu, à cause de quoi le moteur de recherche peut recourir au scénario suivant :

supprimer immédiatement les pages non indexées de la base de données ;
réindexer la ressource après un certain temps ;
mettre les pages qui n'ont pas été indexées à exclure de la base de données, et si elles ne sont pas trouvées lors de la réindexation, elles seront jetées hors de l'index.

Comment accélérer l'indexation du site dans Yandex

Comment accélérer l'indexation dans Yandex - question fréquemment posée sur divers forums de webmasters. En fait, la vie de tout le site dépend de l'indexation : la position de la ressource dans le PS, le nombre de clients de celle-ci, la popularité du projet, le profit, au final.

J'ai préparé 10 façons qui, je l'espère, vous seront utiles. Les cinq premiers sont standard pour l'indexation permanente de la ressource, et les cinq suivants vous aideront à accélérer l'indexation du site dans Yandex :

services de mise en signet;

RSS-feed - assurera la diffusion de nouveaux documents de votre ressource au courrier des abonnés et aux annuaires RSS;

échanges de liens - fournira une augmentation stable des liens dofollow de donateurs de qualité, avec leur sélection correcte (comment sélectionner correctement);

- si vous n'avez pas encore inscrit le site dans les annuaires, alors je vous conseille de le faire. Beaucoup de gens disent que les répertoires sont morts depuis longtemps ou que s'y inscrire tuera le site - ce n'est pas vrai. Plus précisément, pas toute la vérité, si vous vous inscrivez dans tous les répertoires d'affilée, votre ressource n'en souffrira que. Mais avec la bonne sélection de confiance et de bons catalogues, l'effet sera indéniable.

Vérification de l'indexation du site dans Yandex

opérateurs de site et d'url. Si vous souhaitez vérifier l'indexation du site dans Yandex, vous pouvez utiliser les opérateurs standard du moteur de recherche..biz. (Bien sûr, au lieu de mon domaine, le vôtre)
Barre RDS. Je pense que le meilleur et manière rapide vérification de l'indexation des pages dans Yandex. Ce plugin peut être installé sur tous les navigateurs populaires, fournissez immédiatement des informations détaillées sur le nombre de pages du site dans l'index et la présence de matériel spécifique dans celui-ci. Avec cette extension, vous ne perdrez pas de temps à saisir manuellement les URL dans les services ou les recherches. En général, je recommande que la barre RDS soit extrêmement pratique :
Service Serphant. Une ressource multifonctionnelle avec laquelle vous pouvez analyser le site : évaluer l'efficacité et surveiller les sites, analyser les pages des concurrents, vérifier les positions et indexer le site. Vous pouvez vérifier gratuitement l'indexation des pages sur ce lien : https://serphunt.ru/indexing/. Grâce à la vérification par lots (jusqu'à 50 adresses) et à la grande fiabilité des résultats, ce service dans le top 3 selon moi.
Service XSEO. Un ensemble d'outils pour les webmasters, dans XSEO.in, vous pouvez voir l'indexation du site dans Yandex. Obtenez également de nombreuses informations supplémentaires utiles sur votre ressource :
Prestations PR-CY et CY-PR. Quelques autres services qui vous fourniront des informations sur le nombre total de pages indexées :
service de rapport de site. Un excellent service qui vous signalera toutes vos erreurs de travail sur le site. Il comporte également une section "Indexation", où des informations seront fournies pour chaque page du site indiquant si elle est indexée ou non dans les moteurs de recherche Yandex et Google. Par conséquent, je recommande d'utiliser cette ressource pour détecter les problèmes sur le site et vérifier l'indexation de masse Yandex :

Un moyen rapide de vérifier l'indexation des pages dans Yandex et Google. Index de recherche La page est-elle indexée

Indexation du site dans Yandex

Indexation du site dans Google (Google)

Indexation du site dans Rambler (Rambler.ru)

Indexation du site dans Mail.ru (Mail)

Moteur de recherche Aport.ru (Aport)

Moteur de recherche Nigma.ru (Nigma)

Navigateur multimédia Tagoo.ru

Moteur de recherche Turtle.ru (Tortue)

Moteurs de recherche étrangers

Moteur de recherche Yahoo.com (Yahoo)

Moteur de recherche Bing.com (Bing)

Moteurs de recherche ukrainiens

Moteur de recherche ukrainien Meta.ua (Meta)

Comment connaître le nombre de pages du site

Nous regardons l'indexation du site dans son ensemble

Indexation du site dans Yandex

Indexation du site dans Google

voies automatiques

Et après

Comment vérifier l'indexation d'une page

Comment vérifier l'indexation de toutes les pages individuellement

Comment obtenir une liste de toutes les pages d'un site

Comment vérifier automatiquement l'indexation des pages

Conclusion

Robots.txt

Erreurs lors de l'utilisation de robots.txt

Double

Problème causé par les doublons

Comment gérer les doublons ?

Miroirs de sites

Liens utiles en action :

Réponses aux questions

Qu'est-ce que l'indexation ?

Comment ajouter un site à la base de données ?

Comment accélérer l'indexation ?

Voici un exemple d'indexation réussie

Comment accélérer l'indexation du site dans Yandex

Vérification de l'indexation du site dans Yandex

Messages similaires

Mise en place des modules CI (CAM) tricolores sur les téléviseurs de différentes marques Module Cam pour visionner les chaînes TV cryptées

Restauration à partir d'un point de contrôle

Comment installer Windows sur Mac de trois manières Installer Windows sur imac