bots : Différence entre versions
(→Liens utiles) |
|||
Ligne 1 : | Ligne 1 : | ||
[[Catégorie:Normes]] | [[Catégorie:Normes]] | ||
− | + | '''[[Lien court]]''' vers cette page : http://vt.cx/bots<br/> | |
− | '' | + | '''[[QR code]]''' vers cette page : http://vt.cx/bots.qr<br/> |
+ | <br/> | ||
+ | <html> | ||
+ | <script type="text/javascript"><!-- | ||
+ | google_ad_client = "ca-pub-3341840374417340"; | ||
+ | /* VT2 */ | ||
+ | google_ad_slot = "6349432125"; | ||
+ | google_ad_width = 468; | ||
+ | google_ad_height = 60; | ||
+ | //--> | ||
+ | </script> | ||
+ | <script type="text/javascript" | ||
+ | src="http://pagead2.googlesyndication.com/pagead/show_ads.js"> | ||
+ | </script> | ||
+ | </html> | ||
+ | <br/> | ||
+ | |||
+ | = Présentation = | ||
+ | Les '''bots''', qui tirent leur nom de '''robot''', sont des programmes permettant d'automatiser des tâches de recherche et de collecte d'informations sur '''[[Internet]]'''. Il existe deux catégories à savoir les bons et les mauvais ('''bad bots'''). Les bons sont employés à des fins d'information (exemple indexation des '''[[sites Internet]]''' par '''[[Google]]'''), alors que les mauvais sont à la recherche de tout ce qui pourra servir à des fins parasitaires à savoir : | ||
+ | * Collecte d''''[[emails]] pour créer des fichiers utilisés pour '''[[spams]]''' et '''[[phishing]]''' | ||
+ | * Collecte d'informations sensibles | ||
+ | * Recherches de vulnérabilités | ||
+ | * Tentatives d'intrusions | ||
+ | Les '''bots''' sont censés respecter les consignes d'un fichier robot.txt qui, placé à la racine d'un site, lui indique les pages à ne pas visiter/indexer. Si cette convention est relativement bien respecté par les '''bots''' légitimes, elle ne l'est jamais par les '''bad bots''' qu'il faut donc bloquer d'autres manières pour éviter d'en être la proie. Les méthodes de blocage sont nombreuses et les plus simple et plus courante reste '''[[.htaccess]]''' comme expliqué au lien suivant : | ||
+ | http://www.mbrunot.com/demos/page?view=robots | ||
+ | Cette page vise à regrouper toutes les informations sur les '''bots''' tant au niveau de leur conception que de leur identification et blocage éventuel. | ||
= Liens utiles = | = Liens utiles = | ||
Ligne 9 : | Ligne 34 : | ||
* [http://frenchweb.fr/infographie-615-du-trafic-internet-ne-serait-pas-dorigine-humaine/135667 FrenchWeb - 13/12/13] 61,5% du trafic internet ne serait pas d’origine humaine | * [http://frenchweb.fr/infographie-615-du-trafic-internet-ne-serait-pas-dorigine-humaine/135667 FrenchWeb - 13/12/13] 61,5% du trafic internet ne serait pas d’origine humaine | ||
* [http://www.newyorker.com/online/blogs/elements/2013/11/the-rise-of-twitter-bots.html The New Yorker - 15/11/13] The Rise of Twitter Bots | * [http://www.newyorker.com/online/blogs/elements/2013/11/the-rise-of-twitter-bots.html The New Yorker - 15/11/13] The Rise of Twitter Bots | ||
+ | |||
+ | = Vidéos = | ||
+ | {{#Widget:YouTube|id=k3UhFI3ky9U}}<br/> | ||
+ | ''Faire un '''bot''' facilement'' | ||
+ | |||
+ | = Commentaires = | ||
+ | {{#widget:DISQUS | ||
+ | |id=vulgumtechus | ||
+ | }} |
Version du 10 décembre 2014 à 20:07
Lien court vers cette page : http://vt.cx/bots
QR code vers cette page : http://vt.cx/bots.qr
Présentation
Les bots, qui tirent leur nom de robot, sont des programmes permettant d'automatiser des tâches de recherche et de collecte d'informations sur Internet. Il existe deux catégories à savoir les bons et les mauvais (bad bots). Les bons sont employés à des fins d'information (exemple indexation des sites Internet par Google), alors que les mauvais sont à la recherche de tout ce qui pourra servir à des fins parasitaires à savoir :
- Collecte d'emails pour créer des fichiers utilisés pour spams et phishing
- Collecte d'informations sensibles
- Recherches de vulnérabilités
- Tentatives d'intrusions
Les bots sont censés respecter les consignes d'un fichier robot.txt qui, placé à la racine d'un site, lui indique les pages à ne pas visiter/indexer. Si cette convention est relativement bien respecté par les bots légitimes, elle ne l'est jamais par les bad bots qu'il faut donc bloquer d'autres manières pour éviter d'en être la proie. Les méthodes de blocage sont nombreuses et les plus simple et plus courante reste .htaccess comme expliqué au lien suivant :
http://www.mbrunot.com/demos/page?view=robots
Cette page vise à regrouper toutes les informations sur les bots tant au niveau de leur conception que de leur identification et blocage éventuel.
Liens utiles
- botreports.com BotReport : annuaire des bad bots
Articles externes
- FrenchWeb - 13/12/13 61,5% du trafic internet ne serait pas d’origine humaine
- The New Yorker - 15/11/13 The Rise of Twitter Bots
Vidéos
Faire un bot facilement