您现在的位置是：首页 > python爬虫

当前栏目

python 爬虫新手入门教程

python,爬虫,新手入门,教程

2025-04-01 16:27:56 时间

大家好，又见面了，我是你们的朋友全栈君。

python 爬虫新手教程

一、什么是爬虫

爬虫就是把一个网站里的内容读取下来

这里我们就要学习一个知识

我们看到的网页是有一种叫HTML的语言编写的

他可以给文字显示不同的样式

如：<p>hello</p> 就会显示段落：hello

二、如何获取网页的内容

一般爬虫不会把网页内容爬下来

而是把网页源代码爬下来

就好比说：hello 会爬到 <p>hello</p>

如果要在浏览器上看源代码

只需在网页上右键点击选择查看网页源代码即可

那么怎么用python把源代码爬下来呢？

这是要下载一个模块

在cmd里输入：

pip install requests

然后就可以用模块requests爬网页了

import requests  # 导入模块

url = 'https://sina.com.cn'  # 要爬的网址
html = requests.get(url)  # 获取网页源代码
print(html.text)  # 输出 注：需要text函数来返回源代码

输出：

细心的人可以看到后面的代码有编码问题

要把代码转成utf-8中文编码

import requests

url = 'https://sina.com.cn'
html = requests.get(url)
html.encoding = 'utf-8'  # 将编码设为utf-8中文编码
print(html.text)

输出

三、分析源代码

最后要在源代码中筛选出我们要的数据

需要用到模块 lxml

在cmd里输入：

pip install lxml

然后就要使用lxml来筛选数据

import requests
from lxml import etree

url = 'https://sina.com.cn'
html = requests.get(url)
html.encoding = 'utf-8'
element = etree.HTML(html.text)  # 获取html
result = element.xpath('//a/text()')  # 进行筛选

for i in result:
    print(i)  # 输出

输出：

其中核心语句是

result = element.xpath(‘//a/text()’)

而 //a/text() 的意思是获取所以的a标签的值

而常用的xpath语法如下

nodename 选取此节点的所有子节点 / 从当前节点选取直接子节点 // 从当前节点选取子孙节点 . 选取当前节点 .. 选取当前节点的父节点 @ 选取属性 * 通配符，选择所有元素节点与元素名 @* 选取所有属性 [@attrib] 选取具有给定属性的所有元素 [@attrib=’value’] 选取给定属性具有给定值的所有元素 [tag] 选取所有具有指定元素的直接子节点 [tag=’text’] 选取所有具有指定元素并且文本内容是text节点

四、筛选实例

如果要在sina.com.cn读取部分新闻

那么要在键盘上按下F12

点左上角的按钮

鼠标悬停在新闻上再点击

在代码栏中找新闻

再找到所有新闻的父元素

这里可以看到ul的class为list-a news_top

在python中写：

import requests
from lxml import etree

url = 'https://sina.com.cn'
html = requests.get(url)
html.encoding = 'utf-8'
element = etree.HTML(html.text)
result = element.xpath('//ul[@class="list-a news_top"]//a/text()')  # 进行筛选

for i in result:
    print(i)

输出

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/155837.html原文链接：https://javaforall.cn

猜你喜欢

pycharm python安装教程_python环境安装教程
Python 下载的 11 种姿势，一种比一种高级！
知乎高赞！有没有适合新手练习 Python 的做题类网站？
最美圣诞树！用Python画棵雪夜圣诞树送给你
python运行代码不成功_Python | PyCharm无法直接运行（Run）脚本
pycharm中文版怎么配置python环境_python怎么加编译器
用python给女朋友表白_python绘制太阳花
建议收藏！Python 读取千万级数据自动写入 MySQL 数据库
【python】分苹果
Python 编程骚操作连载（一）- 字符串、列表、字典和集合的处理（Part B）
python用pip安装whl文件
Python 贪吃蛇代码
在pycharm中安装pip_pycharm安装django
简单的Python端口扫描工具制作
pycharm选中一行代码快捷键_python代码自动对齐
python pandas读取csv文件_pandas将数据写入csv
一个简单的Python暴力激活成功教程网站登录密码脚本「建议收藏」
Python：变量的命名规则
记一次python清洗疫情历史数据
django_filters实现数据过滤

当前栏目

python 爬虫新手入门教程

python 爬虫新手教程

一、什么是爬虫

爬虫就是把一个网站里的内容读取下来

这里我们就要学习一个知识

我们看到的网页是有一种叫HTML的语言编写的

他可以给文字显示不同的样式

如：<p>hello</p> 就会显示段落：hello

二、如何获取网页的内容

一般爬虫不会把网页内容爬下来

而是把网页源代码爬下来

就好比说：hello 会爬到 <p>hello</p>

如果要在浏览器上看源代码

只需在网页上右键点击 选择查看网页源代码即可

那么怎么用python把源代码爬下来呢？

这是要下载一个模块

在cmd里输入：

然后就可以用模块requests爬网页了

输出：

细心的人可以看到后面的代码有编码问题

要把代码转成utf-8中文编码

输出

三、分析源代码

最后要在源代码中筛选出我们要的数据

需要用到模块 lxml

在cmd里输入：

然后就要使用lxml来筛选数据

输出：

其中核心语句是

result = element.xpath(‘//a/text()’)

而 //a/text() 的意思是获取所以的a标签的值

而常用的xpath语法如下

四、筛选实例

如果要在sina.com.cn读取部分新闻

那么要在键盘上按下F12

点左上角的按钮

鼠标悬停在新闻上再点击

在代码栏中找新闻

再找到所有新闻的父元素

这里可以看到ul的class为list-a news_top

在python中写：

输出

相关文章

只需在网页上右键点击选择查看网页源代码即可