忽然之间的博客

Thoughts, stories and ideas.

爬虫技术-入门

开篇

由于工作需要,开始系统的编写爬虫程序,起初以为通过CURL正则就能满足需求, 随着遇到的状况越来越多,逐渐解决的过程中,越发觉得爬虫涉及的相关技术还是很多的。

下面进入正题。

先看下维基百科的定义。

网络蜘蛛(Web spider)也叫网络爬虫(Web crawler)[1],蚂蚁(ant),自动检索工具(automatic indexer),或者(在FOAF软件概念中)网络疾走(WEB scutter),是一种“自动化浏览网络”的程序,或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站,以获取或更新这些网站的内容和检索方式。它们可以自动采集所有其能够访问到的页面内容,以供搜索引擎做进一步处理(分检整理下载的页面),而使得用户能更快的检索到他们需要的信息。1

爬虫技术是一种从互联网获取内容,进行分析的技术。我们来考虑编写爬虫需要涉及哪些技术点。

  • 数据抓取
  • 网页内容下载
  • 加快下载速度
  • 防止爬虫被ban

接下来的文章,会分别介绍相关技术点, 并给出一些系统的解决方案。