您现在的位置是：首页 > python下载

当前栏目

Python爬虫—-网页下载器和urllib2模块及对应的实例

Python,爬虫,网页,下载,urllib2,模块,对应,实例

2025-03-20 08:49:01 时间

大家好，又见面了，我是你们的朋友全栈君。

网页下载器：将互联网上URL对应的网页下载到本地的工具，是爬虫的核心组件

urllib2下载网页的三种方法

对应实例代码如下：

#coding:utf8

import urllib2  
     
url =  'http://www.baidu.com'

print '第一种方法 --> 直接请求 '
response1 = urllib2.urlopen(url)  
      
#获取状态码，如果是200表示获取成功  
print response1.getcode()  
      
# 获取读取到的内容的长度 
print len(response1.read() )

第一种方法 –> 直接请求 200 4305

#coding:utf8

import urllib2  
     
url =  'http://www.baidu.com'

print '第二种方法：'
#创建Request对象
request= urllib2.Request(url)

#添加http的header
request.add_header('User-Agent' , 'Mozilla/5.0')

# 发送请求获取结果
response2 = urllib2.urlopen(request)

print response2.getcode()
print len(response2.read())

第二种方法： 200 4305

#coding:utf8

import urllib
import urllib2
import cookielib 
     
url =  'http://www.baidu.com'

print '第三种方法：'

#创建cookie容器
cj = cookielib.CookieJar()

#创建1个opener
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

# 给urllib2安装opener
urllib2.install_opener(opener)

# 使用带有cookie的urllib2访问网页
response3 = urllib2.urlopen(url)

print response3.getcode()
print cj
print response3.read()

第三种方法：
200
<CookieJar[]>
<!DOCTYPE html PUBLIC “-//W3C//DTD XHTML 1.0 Transitional//EN” “http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd”>
<html xmlns=”http://www.w3.org/1999/xhtml”>
<head>
……

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/140793.html原文链接：https://javaforall.cn

猜你喜欢

pycharm查找与替换_python替换dataframe中的值
pycharm安装opencv2_python opencv 教程
crontab 用法(执行python文件)[通俗易懂]
pycharm开启自动补全_python代码补全插件
dataframe loc iloc_python的isnull函数
Python笔记第三章
Python lambda 函数深度总结
.app 域名发布了，我们可以使用 Python 做点什么？
Python 学习笔记列表排序 xxx XXX
Python项目44-前后端分离项目(前戏)
pycharm配置python环境_pycharm环境配置教程
在pycharm中配置Anaconda的python工具包_anaconda pycharm环境配置
Python基础23-SSH模块paramiko
pycharm提示no python interpreter_pycharm failed to create virtual
Python 编程 | 连载 20 - 文件 I/O
Django 中使用 ajax 请求的正确姿势
python安装numpy后pycharm导入不了_pycharm中numpy安装
pandas at loc_pandas str
python 获取时间戳_datetime获取当前时间
Python版PHP内置的MD5()函数

Python程序教程

当前栏目

Python爬虫—-网页下载器和urllib2模块及对应的实例

urllib2下载网页的三种方法

相关文章