Le fichier robots.txt est un outil très important en matière de référencement. Concrètement, il vous permet de donner des indications au moteur de recherche, sur la façon dont celui-ci doit parcourir et indexer votre site.
Le fichier robots.txt (destiné aux robots des moteurs de recherhe comme son nom l'indique...) est utilisé pour donner des indications aux moteurs de recherche qui viennent crawler votre site. Prenons un exemple pour que cela soit plus clair. Vous possèdez un site depuis deux ans, mais vous désirez désormais en changer pour passer à quelque chose de plus moderne. Travailler en local sur votre PC ne vous attire pas plus que ça, aussi vous décidez de placer la nouvelle version de votre site sur votre serveur, pourquoi pas dans un sous-répertoire de votre site actuel (par exemple: www.monsite.com/nouveausite/). Seulement, problèmes, vous ne désirez pas que les moteurs de recherche puissent y accéder, puisqu'il s'agit d'une version en développement, et vous ne désirez pas qu'elle se retrouve dans les résultats des moteurs de recherche. C'est là qu'intervient le fichier robots.txt. Il vous suffit simplement de placer une commande dans votre fichier pour interdire l'accès au moteur. Dans notre exemple ci-dessus, cette syntaxe suffira: - User-Agent: *
- Disallow: /nouveausite/
Dans le cas présent, vous autorisez tous les robots des moteurs à accéder à votre site (User-Agent:*), mais vous leur interdisez l'accès au répertoire /nouveausite (Disallow: /nouveausite/). De ce fait, vous êtes surs que votre site en développement ne se retrouvera pas par inadvertence dans les résultats des moteurs de recherche. Libre à vous par la suite, d'autoriser tel ou tel spider à crawler tel ou tel répertoire. Pour information et pour les plus curieux, si vous utilisez un CMS Open source comme Joomla pour votre site, allez faire un tour sur votre serveur et regardez le fichier robots.txt par défaut. Vous vous apercevrez que celui-ci interdit l'accès à tous les répertoires de gestion du CMS ;-).....
|