Python爬虫—-网页下载器和urllib2模块及对应的实例
Python,爬虫,网页,下载,urllib2,模块,对应,实例
2025-03-20 08:49:01 时间
大家好,又见面了,我是你们的朋友全栈君。
网页下载器:将互联网上URL对应的网页下载到本地的工具,是爬虫的核心组件
urllib2下载网页的三种方法
对应实例代码如下:
#coding:utf8
import urllib2
url = 'http://www.baidu.com'
print '第一种方法 --> 直接请求 '
response1 = urllib2.urlopen(url)
#获取状态码,如果是200表示获取成功
print response1.getcode()
# 获取读取到的内容的长度
print len(response1.read() )
第一种方法 –> 直接请求 200 4305 |
---|
#coding:utf8
import urllib2
url = 'http://www.baidu.com'
print '第二种方法:'
#创建Request对象
request= urllib2.Request(url)
#添加http的header
request.add_header('User-Agent' , 'Mozilla/5.0')
# 发送请求获取结果
response2 = urllib2.urlopen(request)
print response2.getcode()
print len(response2.read())
第二种方法: 200 4305 |
---|
#coding:utf8
import urllib
import urllib2
import cookielib
url = 'http://www.baidu.com'
print '第三种方法:'
#创建cookie容器
cj = cookielib.CookieJar()
#创建1个opener
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
# 给urllib2安装opener
urllib2.install_opener(opener)
# 使用带有cookie的urllib2访问网页
response3 = urllib2.urlopen(url)
print response3.getcode()
print cj
print response3.read()
第三种方法:
200
<CookieJar[]>
<!DOCTYPE html PUBLIC “-//W3C//DTD XHTML 1.0 Transitional//EN” “http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd”>
<html xmlns=”http://www.w3.org/1999/xhtml”>
<head>
……
发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/140793.html原文链接:https://javaforall.cn
相关文章
- 解决 pycharm(pip)安装 python 第三方库 pygame) 时下载速度太慢的问题
- Python 进行 SSH 操作,实现本地与服务器的链接,进行文件的上传和下载
- 在pycharm中如何新建Python文件?_github下载的python源码项目怎么用
- [Python 爬虫]煎蛋网 OOXX 妹子图爬虫(2)——多线程+多进程下载图片
- Python 下载的 11 种姿势,一种比一种高级!
- 【python教程入门学习】PyCharm下载和安装教程(包含配置Python解释器)
- 消消乐python代码_python源码下载
- 下载whl文件,离线方式安装numpy包_python离线安装pip
- python的源代码下载_官方下载python源码,编译linux版本的python「建议收藏」
- pycharm pro for mac(Python编辑开发安装包)中文激活版下载
- python对接oss上传和下载
- 如何用anaconda下载python_如何安装配置anaconda与Pycharm「建议收藏」
- python学习笔记(三)— PyCharm 下载安装教程(Windows)
- Python+PyCharm下载安装教程「建议收藏」