您现在的位置是：首页 > python爬虫

当前栏目

Python爬虫实验报告之Big_Homework1_Lishipin

Python,爬虫,实验报告,Big,Homework1,Lishipin

2025-04-07 09:01:27 时间

大家好，又见面了，我是你们的朋友全栈君。

实验目的：

爬取梨视频网站某模块全部信息；

字段信息为：视频标题、作者、点赞数，纯视频链接，并且存入txt文档。

实验过程截图：

源码：

 1 import requests
 2 from lxml import etree
 3 from urllib import request
 4 import re
 5 
 6 # 全局变量（请求头+文件IO对象）
 7 headers = {
 8     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36 Edg/85.0.564.44'}
 9 file = open('./梨视频.txt', 'w', encoding='utf-8')
10 
11 
12 # 采集前端源码
13 def index():
14     for num in range(0, 493, 12):
15         base_url = 'https://www.pearvideo.com/category_loading.jsp?reqType=5&categoryId=59&start={}'.format(num)
16         print('正在写入', base_url, '中的数据信息...')
17         response = requests.get(base_url, headers=headers)  # 模拟访问+请求头
18         response.encoding = 'utf-8'  # 解码
19         html = response.text  # 获取源码
20         clean(html)  # 清洗数据
21 
22 
23 # 清洗数据
24 def clean(html):
25     htmls = etree.HTML(html)  # 预处理
26     video_titles = htmls.xpath('//div[@class="vervideo-bd"]/a/div[2]/text()')
27     # print(video_titles)，视频标题
28     video_authors = htmls.xpath('//div[@class="vervideo-bd"]/div/a/text()')
29     # print(video_authors)，作者
30     video_likes = htmls.xpath('//div[@class="vervideo-bd"]/div/span/text()')
31     # print(video_likes)，点赞数
32     video_urls1 = htmls.xpath('//div[@class="vervideo-bd"]/a/@href')
33     # print(video_urls1),不完整的视频链接
34     printt(video_titles,video_authors,video_likes,video_urls1)
35 
36 
37 # 打印数据
38 def printt(video_titles,video_authors,video_likes,video_urls1):
39     # 拼接
40     for vu,vt,va,vl in zip(video_urls1,video_titles,video_authors,video_likes):
41         video_urls2 = 'https://www.pearvideo.com/' + vu
42         # print(video_urls2)
43         # 第二层访问
44         response = requests.get(video_urls2)
45         response.encoding = 'utf-8'
46         html = response.text
47         # print(html)
48         # 吸星大法
49         pattern = re.compile('srcUrl="(.*?)",vdoUrl')
50         video_url = pattern.findall(html)[0]
51         # print(video_url)
52         full_info='视频标题：'+vt+'\t'+'作者：'+va+'\t'+'点赞数：'+str(vl)+'\n'+video_url
53         file.write(full_info+'\n')
54 
55 
56 # 下载模块
57 def download():
58     pass
59 
60 
61 if __name__ == '__main__':
62     index()
63     file.close()

View Code

实验心得：

因为我先写的大作业2，所以这个写的顺的一批，中间也没遇到什么烦人的bug，又是一段开心的编程经历。

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/156168.html原文链接：https://javaforall.cn

猜你喜欢

【Python】面向对象编程（OOP）之封装的艺术
如何利用Python和win32编程避免重复性体力劳动（一）——开始、FindWindow和FindWindowEx
Python六大基本数据类型介绍[通俗易懂]
Python字符串转换为日期时间– strptime（）「建议收藏」
Python-drf前戏38-前端Vue
XGBoost：在Python中使用XGBoost
Python Flask 编程 | 连载 03 - Flask 请求
python读取txt文件中的数组
Python项目45-前后端分离Home主页及后台(开撸)
python写入txt文件中文乱码_python中怎么输入文件
八种用Python实现定时执行任务的方案，一定有你用得到的！
Django模糊查询「建议收藏」
使用python的pyecharts库绘制数据可视化大屏
Selenium的Web自动化测试（送源码）
python读写、创建文件、文件夹等等
Python线程指南[通俗易懂]
python与anaconda安装（先安装了python后安装anaconda，基于python已存在的基础上安装anaconda）——逼死强迫症、超详解[通俗易懂]
php sigpipe,Python的SIGPIPE信号「建议收藏」
python2.7安装pytorch_PyTorch安装「建议收藏」
python中itchat_python打招呼的代码

Python程序教程

当前栏目

Python爬虫实验报告之Big_Homework1_Lishipin

实验目的：

实验过程截图：

源码：

实验心得：

相关文章