Skip to content

Latest commit

 

History

History
21 lines (14 loc) · 1 KB

爬虫.md

File metadata and controls

21 lines (14 loc) · 1 KB

爬虫教程

[TOC]

参考资料

Python3爬虫视频学习教程
Beautiful Soup 4.4.0 文档

小实例入手

Python爬虫实战(4):抓取淘宝MM照片

BeautifulSoup

解析器 使用方法 优势 劣势
Python标准库 BeautifulSoup(markup, "html.parser") Python的内置标准库 执行速度适中 文档容错能力强 Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差
lxml HTML 解析器 BeautifulSoup(markup, "lxml") 速度快 文档容错能力强 需要安装C语言库
lxml XML 解析器 BeautifulSoup(markup, ["lxml", "xml"]);BeautifulSoup(markup, "xml") 速度快 唯一支持XML的解析器 需要安装C语言库
html5lib BeautifulSoup(markup, "html5lib") 最好的容错性;以浏览器的方式解析文档;生成HTML5格式的文档 速度慢;不依赖外部扩展