忽然之间的博客

Thoughts, stories and ideas.

爬虫技术-使用Xpath解析HTML内容

XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。 XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。 起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。 XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。 利用Xpath查询技术,正好解决爬虫解析HTML的需求。read more»

爬虫技术-入门

爬虫技术是一种从互联网获取内容,进行分析的技术。我们来考虑编写爬虫需要涉及哪些技术点。 - 数据抓取 - 网页内容下载 - 加快下载速度 - 防止爬虫被ban 接下来的文章,会分别介绍相关技术点, 并给出一些系统的解决方案。 read more»