python批量采集美团网餐饮商家评论信息
最近有私信询问可不可以批量采集美团餐饮的商家评论信息,今天晚上刚好有时间就做一个爬虫小教程供大家参考。
爬虫的教程我们做了好几篇文章,流程可以参考之前的文章,今天就直接开始正题。
1.分析目标网址
首先使用谷歌浏览器打开美团网,搜索商家牛教官潮汕牛肉火锅店,这是我随机搜索的商家,大家可以选择自己需要的商家。
可以看到网页url为:https://www.meituan.com/meishi/179300254/
后面的那一串数字为商家的id,这个很重要,后面会用到。
翻到下面评论,点击第二页发现网址并没有发生变化,所以评论数据是动态加载的,所以需要谷歌浏览器进行抓包,之前抓包已经详细的讲过,这边就不多讲解,需要的可以翻之前的网址。
通过抓包抓到的网址url如下图:
url:https://www.meituan.com/meishi/api/poi/getMerchantComment?uuid=4d71c16218e44fbea5d9.1620288299.1.0.0&platform=1&partner=126&originUrl=https%3A%2F%2Fwww.meituan.com%2Fmeishi%2F179300254%2F&riskLevel=1&optimusCode=10&id=179300254&userId=95514115&offset=10&pageSize=10&sortType=1
其中uuid值可以固定,我观测了一下,6个小时换一次应该就可以,这个id值为商家的id,需要不同的商家只需要更换不同的id值就可以,userid是用户id,这个不用管,offset值为翻页值,第二页是10,所以第三页就是20,后面页数以此类推,pagesize为每页的数据量,sortType是排序方式,1为默认排序。可以直接打开url发现数据包为json数据。如下:
这就是分析目标网址的过程,接下来我们开始抓取数据。
2. 模拟浏览器发送请求,获取响应内容
导入相关包
import requests,csv,time,random
构造请求头
使用requests库获取网页内容
response = requests.get(url=url,headers=headers).json()
3.解析响应内容并保存
comments = response['data']['comments']
for comment in comments:
#print(comment)
#name = comment['userName']
commentdata = comment['comment']
commentdata1 = "".join(commentdata).strip("").replace('\n', ',').replace(',', ',')
print(commentdata1)
4.保存网页响应内容
with open('restrantcomment1.csv', mode='a', newline="") as csvfile:
csv_writer = csv.writer(csvfile, delimiter=',')
csv_writer.writerow([commentdata1])
如果想获取多页可以在代码前加for循环。
for i in range(0,100,10):
使用format函数把offset值改为i值就可以了。
效果图如下:
大家注意采集数据过程中注意请求频次,不要太快给服务器
造成压力,可以简单的使用time.sleep函数来进行操作,这就
是所有的内容了,大家有什么问题可以在后台私信我就行。
相关文章
- 羊了个羊,但是Python简(li)单(pu)版
- Python基础16-正则和子进程模块
- 地球科学领域Python工具合集
- Python 模板渲染库 yaml 和 jinja2 的实战经验分享
- Python 细聊!可以媲美 PS 的 PIL 图片处理库
- python 获取时间戳_datetime获取当前时间
- Python进阶41-drf框架(三)
- Python 学生信息管理系统——文章中源码100%真实有效—–如何将类、初始化属性、模块、循环判断、静态方法等一系列知识点结合起来做一个项目「建议收藏」
- python三种基本数据类型有哪些_python中有哪些基本数据类型
- Python基础10-函数的递归
- Python-drf前戏38.2-前端Vue02
- Python 图_系列之基于<链接表>实现无向图最短路径搜索
- 【python】分苹果
- Python 从底层结构聊 Beautiful Soup 4(内置豆瓣最新电影排行榜爬取案例)!
- Python元祖详解
- Anaconda 查看、创建、管理和使用python环境
- 整理了上千个Python类库,简直太酷啦!
- Python基础12-内置函数
- Python办公自动化 | word 文本转 excel
- 如何用python画一朵樱花_如何用python绘制粉色樱花