网络爬虫

编辑
本词条由“小小编” 建档。

网络爬虫是一种以有组织、自动化的方式浏览万维网的计算机程序。 网络爬虫的作用称为“网络爬行”或“蜘蛛”。许多网站(例如搜索引擎)都会爬行网络以保持数据最新。它用于创建页面副本,搜索引擎会为这些页面建立索引爬虫还用于网站的自动维护任务,例如链接检查和HTML代码验证,还用于从网页收集某些类型的信息,例如电子邮件收集。 网络爬虫是机器人或软件代理的一种形式。网络爬虫通常从称为种子的URL列表开始。它识...

什么是网络爬虫

编辑

网络爬虫是一种以有组织、自动化的方式浏览万维网计算机程序。

网络爬虫的作用称为“网络爬行”或“蜘蛛”。许多网站(例如搜索引擎)都会爬行网络以保持数据最新。它用于创建页面副本,搜索引擎会为这些页面建立索引爬虫还用于网站的自动维护任务,例如链接检查和 HTML 代码验证,还用于从网页收集某些类型的信息,例如电子邮件收集。

网络爬虫是机器人或软件代理的一种形式。网络爬虫通常从称为种子的 URL 列表开始。它识别页面上的所有超链接并更新 URL 列表。更新的 URL 列表会被递归重写。

网络爬虫

网络爬虫术语

编辑

网络爬虫也可称为网络蜘蛛、蚂蚁、自动索引器和网络剪切器,此外,它们还被称为机器人、蠕虫和网络机器人。

爬虫抓取策略

编辑

网络爬虫的行为是多种策略的产物:

  • 可选政策:参考页面下载
  • 重新访问政策:提及何时检查文档是否有更改
  • 礼貌政策:防止网站过载的注意事项
  • 并行化政策:提到如何协调分布式网络爬虫

常见的网络爬虫

编辑
  • 冰机器人
  • FASTCrawler:分布式爬虫
  • Google 机器人
  • GMC爬网
  • PolyBot
  • RBSE
  • Swiftbot
  • 网络爬虫
  • 网络喷泉
  • WebRACE
  • 万维网蠕虫
  • 雅虎!Slurp

百科词条作者:小小编,如若转载,请注明出处:https://glopedia.cn/263927/

(3)
词条目录
  1. 什么是网络爬虫
  2. 网络爬虫术语
  3. 爬虫抓取策略
  4. 常见的网络爬虫

轻触这里

关闭目录

目录