博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python爬虫知识点一
阅读量:6259 次
发布时间:2019-06-22

本文共 2111 字,大约阅读时间需要 7 分钟。

一。入门知识:

1.1.HTTP简介

HTTP = HyperText Transfer Protocol
URI = Uniform Resource Identifier
URL = Uniform Resource Locator
URI和URL的区别:URI强调的是资源,而URL强调的是资源的位置。
1.2常用请求类型
OPTIONS: 返回服务器针对特定资源所支持的http请求方法。
HEAD: 向服务器索要与get请求相一致的响应,只不过响应体将不会被返回。
GET: 向特定资源发出请求
PUT: 向指定资源位置上传其最新内容
POST: 向指定资源提交数据进行处理请求
DELETE: 请求服务器删除指定URI所标识的资源
PATCH: 用来将局部修改应用于某一资源
1.3HTTP常见状态码
200/OK: 请求成功
201/Created: 请求已被实现,且一个新资源已根据请求被建立,URI跟随Location头信息返回。
202/Accepted: 服务器已接受请求,但尚未处理。
400/Bad Request: 请求无法被服务器理解
401/Unauthorized: 当前请求需要用户验证
403/Forbidden: 服务器已理解请求,但拒绝执行。
404/Not Found

1.4 爬虫框架介绍

第一步:将种子URL放入队列
第二步:从队列中获取URL,抓取内容。
第三步:解析抓取内容,将需要进一步抓取的URL放入工作队列,存储解析后的内容
1.5 抓取策略
深度优先:举例先完成专题一的所有内容,再完成专题二的所有内容。

广度优先

PageRank
大站优先策略 举例: 根据网站的Pr顺序 指定优先级

1.6 如何去重

Hash表
bloom过滤器

1.7 爬虫质量标准

分布式

可伸缩性
性能和有效性
质量
新鲜性
更新
可扩展性

二。代码实施

import requestsimport xml.etree.ElementTree as ETfrom xml.parsers.expat import ParserCreateclass DefaultSaxHandler(object):    def __init__(self, provinces):        self.provinces = provinces    # 处理标签开始    def start_element(self, name, attrs):        if name != 'map':            name = attrs['title']            number = attrs['href']            self.provinces.append((name, number))    # 处理标签结束    def end_element(self, name):        pass    # 文本处理    def char_data(self, text):        passdef get_province_entry(url):    # 获取文本,并用gb2312解码    content = requests.get(url).content.decode('gb2312')    # 确定要查找字符串的开始结束位置,并用切片获取内容。    start = content.find('')    end = content.find('')    content = content[start:end + len('')].strip()    print(content)    provinces = []    # 生成Sax处理器    handler = DefaultSaxHandler(provinces)    # 初始化分析器    parser = ParserCreate()    parser.StartElementHandler = handler.start_element    parser.EndElementHandler = handler.end_element    parser.CharacterDataHandler = handler.char_data    # 解析数据    parser.Parse(content)    # 结果字典为每一页的入口代码    return provincesprovinces = get_province_entry('http://www.ip138.com/post')print(provinces)

结果如下:

Ps: start方法中判断不等于map标签的即为area标签 然后选取href title属性对应的值即可

 持续更新中。。。。,欢迎大家关注我的公众号LHWorld.

转载于:https://www.cnblogs.com/LHWorldBlog/p/7836604.html

你可能感兴趣的文章
【LoadRunner】安装LoadRunner
查看>>
Linux内存管理 (15)页面迁移
查看>>
在高并发、高负载的情况下,如何给表添加字段并设置DEFAULT值?
查看>>
Cocos2d-x 3.0final 终结者系列教程13-贪食蛇游戏案例(全)
查看>>
Nginx的try_files指令和命名location使用实例
查看>>
IO多路复用之select
查看>>
pd_ds中的hash
查看>>
买书不读是一种什么病?
查看>>
微信接口开发报错invalid credential, access_token is invalid or not latest hint
查看>>
nohup 部署springboot 使用命令
查看>>
MQ产品比较-ActiveMQ-RocketMQ
查看>>
暂时没有想好呢。
查看>>
windows服务 MVC之@Html.Raw()用法 文件流的读写 简单工厂和工厂模式对比
查看>>
PHP解析URL并得到URL中的参数
查看>>
【vue.js】绑定click事件
查看>>
字体属性
查看>>
linux的iptables和firewall的区别
查看>>
Install RabbitMQ server in CentOS 7
查看>>
Eureka的优势
查看>>
Android项目实战(一): SpannableString与SpannableStringBuilder
查看>>