mercredi 4 juin 2008 


Accueil > Actualité des moteurs de recherche et du référencement >

Microsoft, Yahoo! et Google s'entendent sur un standard de fichier robots.txt

Envoyer a un ami Version imprimable    

Les trois plus grands moteurs de recherche (Google, Yahoo!, Microsoft Live) viennent simultanément de communniquer sur un standard commun concernant le Robots Exclusion Protocol (REP), régissant le contenu du fichier "robots.txt", placé à la racine d'un site (www.votresite.com/robots.txt) et indiquant aux spiders des moteurs de recherche ce qu'ils ne doivent pas faire sur un site web, mais également sur l'utilisation des balises META (noindex, nofollow, norachive, nosnippet, noodp, etc.) dans cette même optique.

Voici ces différentes directives, extraites du blog pour webmasters de Google (notez toutefois que chaque moteur propose des syntaxes qui leur sont propres dans ce cadre, elles sont rappelées sur chacun de leur blog - voir adresses ci-dessous) :

1. Robots.txt Directives
DIRECTIVE IMPACT USE CASES
Disallow Tells a crawler not to index your site -- your site's robots.txt file still needs to be crawled to find this directive, however disallowed pages will not be crawled 'No Crawl' page from a site. This directive in the default syntax prevents specific path(s) of a site from being crawled.
Allow Tells a crawler the specific pages on your site you want indexed so you can use this in combination with Disallow This is useful in particular in conjunction with Disallow clauses, where a large section of a site is disallowed except for a small section within it
$ Wildcard Support Tells a crawler to match everything from the end of a URL -- large number of directories without specifying specific pages 'No Crawl' files with specific patterns, for example, files with certain filetypes that always have a certain extension, say pdf
* Wildcard Support Tells a crawler to match a sequence of characters 'No Crawl' URLs with certain patterns, for example, disallow URLs with session ids or other extraneous parameters
Sitemaps Location Tells a crawler where it can find your Sitemaps Point to other locations where feeds exist to help crawlers find URLs on a site


2. HTML META Directives
DIRECTIVE IMPACT USE CASES
NOINDEX META Tag Tells a crawler not to index a given page Don't index the page. This allows pages that are crawled to be kept out of the index.
NOFOLLOW META Tag Tells a crawler not to follow a link to other content on a given page Prevent publicly writeable areas to be abused by spammers looking for link credit. By using NOFOLLOW you let the robot know that you are discounting all outgoing links from this page.
NOSNIPPET META Tag Tells a crawler not to display snippets in the search results for a given page Present no snippet for the page on Search Results
NOARCHIVE META Tag Tells a search engine not to show a "cached" link for a given page Do not make available to users a copy of the page from the Search Engine cache
NOODP META Tag Tells a crawler not to use a title and snippet from the Open Directory Project for a given page Do not use the ODP (Open Directory Project) title and snippet for this page



Robot Spider
 
Source de l'image : R-geek

http://www.robotstxt.org/

Source(s) :
- One Standard Fits All: Robots Exclusion Protocol for Yahoo!, Google and Microsoft (Yahoo!)
- More on Robots Exclusion Protocol (REP) (Google)
- Improving on Robots Exclusion Protocol (Google)
- Robots Exclusion Protocol: Joining Together to Provide Better Documentation (Microsoft)


Articles connexes sur ce site :

- Google propose un générateur de fichier robots.txt (28 mars 2008)
- Fichiers robots.txt : avantage Google (16 novembre 2007)
- Google analyse votre fichier robots.txt (7 février 2006)
- Google teste la directive "Noindex" dans les fichiers robots.txt (26 novembre 2007)
- Les 4 moteurs majeurs s'entendent sur une nouvelle fonction du standard Sitemaps (13 avril 2007)

Toutes les pages du réseau Abondance pour la requête robots.txt...

Wikio

0 Commentaires :

Rappelons ici que les liens insérés dans vos commentaires sont en 'rel=nofollow' et ne sont donc ni suivis ni interprétés par les moteurs de recherche...

Poster un nouveau commentaire


<< Accueil
 


Retrouvez ici toute l'actualité des moteurs de recherche majeurs et du référencement en France et dans le Monde, jour après jour : nouveautés, rachats, nouveaux moteurs, nouvelles fonctions, nouvelles annonces, nouveaux outils, etc.
 
feed xml
 
Wikio
 
Pour tout savoir sur le livre "Réussir son référencement web, 2ème édition" (Eyrolles, novembre 2009), consultez le site Livre Référencement !

 
Lettre d'actualité
La lettre "Actu Moteurs" est hebdomadaire et gratuite. Abonnez-vous :

Rejoignez nos 70 000 abonnés (plus d'infos) depuis 1998 et recevez toute l'info sur les moteurs chaque semaine !

 
Les blogs d'Abondance
Abondance-Actu :
Toute l'actualité quotidienne des moteurs de recherche et du référencement.
Abondance-Info :
Quelques réflexions sur les moteurs de recherche et le référencement.
Abondance-Pro :
Le sommaire de la lettre professionnelle "Recherche et Référencement".
Abondance-Abonnés :
Le blog des abonnés payants.
 



 
 Recherche sur le site Abondance :

Tout Abondance
Toute l'actu depuis 1998


 

 

Messages précédents

 
Live Search veut analyser et améliorer les pages 4...
Live Search sur les ordinateurs HP dès 2009 en Amé...
Nouvelles fonctions pour Wikia Search
Google Merchant Search : un comparateur de service...
Wikipedia mis en valeur dans Live Search
Goosh, un Google minimaliste
Google change de favicon
18 nouveaux moteurs de recherche !
L'association belge Copiepresse attaque à nouveau ...
Google Earth dans votre navigateur

 

Archives

 
juillet 2007
août 2007
septembre 2007
octobre 2007
novembre 2007
décembre 2007
janvier 2008
février 2008
mars 2008
avril 2008
mai 2008
juin 2008
juillet 2008
août 2008
septembre 2008
octobre 2008
novembre 2008
décembre 2008
janvier 2009
février 2009
mars 2009
avril 2009
mai 2009
juin 2009
juillet 2009
août 2009
septembre 2009
octobre 2009
novembre 2009
décembre 2009
janvier 2010
février 2010

 

Lettres d'actualité

 
Actu Moteurs : revue de presse hebdomadaire (gratuite)
Recherche & Référencement : lettre professionnelle mensuelle (payante)

 
Chercher sur le Web avec Mozbot :

Chercher sur :
Web international
Web francophone
Un site du Réseau Abondance (english version : Search Engine Tools) :
Information : Abondance - Goossip - Forums Abondance - Boutique Abondance - Livre Référencement
Outils : Outiref - Visiref - Keyword Search Engine - Spider Simulator - Soumission-Manuelle - Flash Moteurs - Moklic
Divers / Jeux : Googlefight - Googland - Klevener
Moteurs de recherche : Mozbot.fr - Mozbot.com - Mozbot.co.uk - Motref - Grifil.net - Biomalin - Foot Engine - SearchWings
Applicatifs du site Abondance réalisés par les sociétés Brioude Internet Référencement et Iseom