User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: */trackback
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.txt$
Allow: /wp-content/uploads
User-agent: Googlebot-Image
Allow: /
User-agent: Mediapartners-GoogleAllow: /
Sitemap: http://www.voyance-solution.be/sitemap.xml
User-Agent: MJ12bot
Disallow:
########## Tous ceux qu'on veut interdire... ##########
# Respectent pas le robots.txt, mais on les met quand même au cas où ils se
# décideraient à corriger ça.
# Leur robot aspire toutes les pages! En plus ils sont puants et ne se gênent
# pas pour le "faites ce que je dis, pas ce que je fais".
#
# Apparemment, ils n'essayent plus de crawler le web: c'est sur soumission
# manuelle uniquement. Mais juste au cas où...
User-agent: Art-Online
# Ce site n'appartient pas au merveilleux monde sous contrôle de MSN...
# Voir aussi .
# (redirige sur une page au contenu
# utile nul)
User-agent: MSNBOT
User-agent: msnbot
# Une boite qui fait payer pour empêcher le plagiat par les et des
# étudiants.
#
User-agent: turnitinbot
# Bla bla bla truc pour que les entreprises vérifient leur image sur le web.
#
User-agent: CatchBot
# L'air d'un truc payant.
#
User-agent: ICCrawler - iCjobs
# Surveillance de marques de merde.
#
User-agent: R6_FeedFetcher
User-agent: R6_CommentReader
# Vendent leurs résultats de crawl => dégage.
#
User-agent: 008
# Probablement pas méchant mais clairement dans une langue qui n'est pas
# la mienne, donc mes pages en français ne risquent pas de faire partie de
# sa cible.
#
#User-agent: YoudaoBot
# Pareil que YoudaoBot.
#
#User-agent: Sogou
# Pareil que YoudaoBot.
#
#User-agent: Sosospider
# Pareil que YoudaoBot. (Pas sûre s'il faut l'appeler Naverbot ou Yeti.)
#
#User-agent: Naverbot
#User-agent: Yeti
# Pareil que YoudaoBot.
#
#User-agent: ichiro
# Ils font payer les données d'autrui.
#
User-agent: Spinn3r
# Un foutage de gueule de trop... Si je ne peux pas empêcher leur sidewiki
# de merde de polluer mes pages, je peux au moins envoyer se faire foutre
# leur robot. C'est pas comme s'ils m'amenaient du trafic pertinent de
# toute manière, c'pas...
# http://talkbiz.com/blog/google-steals-the-web/
# http://www.ryanhealy.com/sidewiki-the-great-wall-of-google/
# http://www.marketersboard.com/google-sidewiki-controversy/
# http://blogs.telegraph.co.uk/technology/andrewkeen/100003634/sidewiki-google-colonial-sideswipe/
# http://community.ere.net/blogs/and-im-sticking-to-it/2009/10/three-ways-google-gets-evil-with-sidewiki/
# http://joshnotes.com/blogs/josh/google-sidewiki-www-18.html
# http://davejones.ca/blog/2009/10/10/google-sidewiki-is-making-me-a-control-freak.html
# http://www.debatpublic.net/2009/10/26/sidewiki-google-adopte-la-strategie-du-coucou/
# http://digitalrecruiting.wordpress.com/2009/10/30/three-ways-google-gets-evil-with-sidewiki/
# http://www.seoreview.com.au/?p=790
# http://shewhomust.livejournal.com/255098.html
# http://www.willmaster.com/blog/contentprotection/sidewiki-defense.php
# http://netcropolis.org/content/how-block-google-sidewiki
# http://www.wendymcelroy.com/print.php?news.2796
# http://blog.fcon21.biz/index.php?url=273/is-google-sidewiki-evil/
# Admettons qu'il me soit utile pour l'instant.
# User-agent: Googlebot
# Règle d'interdiction générale.
Disallow: /
########## Règles générales ##########
# A la fin parce qu'on s'arrête au premier qui matche.
# C'est nascze d'indexer les flux, et c'est nascze pour un agrégateur de
# lire le robots.txt avant de vouloir récupérer le flux.
# Sont dans ce cas: BlogPulseLive, BlogVibeBot
# Google débile: c'est le même user-agent pour Google blogs et pour les
# pages de recherche standard!!
#User-agent: Googlebot
User-agent: Slurp
User-agent: VoilaBot
Disallow: /feed/
Disallow: /informatique/trousansfond/glue/
# Protège du piège les robots qui se comportent bien.
User-agent: *
Disallow: /informatique/trousansfond/glue/