您现在的位置是：首页 > Python

当前栏目

b站动漫_python爬b站视频

动漫,python,视频

2025-03-13 21:27:15 时间

大家好，又见面了，我是你们的朋友全

。。。闲来无事，爬了一下我最爱的B站~~~卒首先进入B站的番剧索引页 ps：以前经常浏览这个索引页找动漫看，所以熟练的操作~滑稽

翻页发现url链接并没有改变，用谷歌开发者工具network发现加载了XHR文件并返回json格式的响应

放到atom里看下数据是咋样的

要对其进行翻页处理，观察一下query string的规律，发现那么多个参数只有page这个参数是变化的

所以接下来都很好做了~嘻嘻 items.py

import scrapy
from scrapy import Field

class BilibiliItem(scrapy.Item):

    title = Field()
    cover = Field()
    sum_index = Field()
    is_finish = Field()
    link = Field()
    follow = Field()
    plays = Field()
    score = Field()
    _id = Field()

bzhan.py

import scrapy
import demjson #这个库要pip一哈
from scrapy.selector import Selector
from bilibili.items import BilibiliItem
from random import randint

class BzhanSpider(scrapy.Spider):
    name = 'bzhan'
    allowed_domains = ['bilibili.com']
    start_urls = ['https://bangumi.bilibili.com/media/web_api/search/result?season_version=-1&area=-1&is_finish=-1&copyright=-1&season_status=-1&season_month=-1&pub_date=-1&style_id=-1&order=3&st=1&sort=0&page=1&season_type=1&pagesize=20']

    def parse(self, response):
        json_content = demjson.decode(response.body)
        datas = json_content["result"]["data"]
        item = BilibiliItem()
        for data in datas:
            cover = data['cover']
            sum_index = data['index_show']
            is_finish = data['is_finish']
            is_finish = '已完结' if is_finish == 1 else '未完结'
            link = data['link']
            follow = data['order']['follow']
            plays = data['order']['play']

            try:
                score = data['order']['score']
            except:
                score = '未知'
            title = data['title']

            item['_id'] = title
            item['cover'] = cover
            item['sum_index'] = sum_index
            item['is_finish'] = is_finish
            item['link'] = link
            item['follow'] = follow
            item['plays'] = plays
            item['score'] = score
            item['title'] = title

            yield item
        urls = ['https://bangumi.bilibili.com/media/web_api/search/result?season_version=-1&area=-1&is_finish=-1&copyright=-1&season_status=-1&season_month=-1&pub_date=-1&style_id=-1&order=3&st=1&sort=0&page={0}&season_type=1&pagesize=20'.format(k) for k in range(2,156)]
        for url in urls:
            request = scrapy.Request(url,callback=self.parse)
            yield request

利用python对象字典的方式进行解析。。不难

piplines.py

import pymongo

class BilibiliPipeline(object):
    def process_item(self, item, spider):
        client = pymongo.MongoClient('localhost', 27017)
        mydb = client['mydb']
        bilibili = mydb['bilibili']
        bilibili.insert_one(item)
        print(item)
        return item

settings.py略。。。。。。

结果可以爬取到三千多个数据

心疼我的b站一秒。。

发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn/172278.html原文链接：https://javaforall.cn

猜你喜欢

pythoncharm注释快捷键_JAVA注释快捷键
pip安装的包pycharm识别不了_手机上的python安装第三方库
node npm python 环境配置、安装
tensorflow pycharm教程_tensorflow支持python3.8吗
Win10配置Airsim环境并设置Python通信
消消乐python代码_python源码下载
Python 编程 | 连载 22 - logging 与 random 模块
pycharm与anaconda_python关系抽取
pycharm里python打包成exe_pycharm 将python文件打包为exe格式的方法[通俗易懂]
Python 编程 | 连载 19 - Package 和 Module
python的源代码下载_官方下载python源码，编译linux版本的python「建议收藏」
pycharm配置pyqt5_python pyqt5教程
python安装dlib库_pycharm安装dlib失败
.app 域名发布了，我们可以使用 Python 做点什么？
Python项目部署-使用Nginx部署Django项目
pycharm python安装教程_python环境安装教程
python线性回归算法「建议收藏」
Python进阶29-ORM介绍
Python进阶31-Django 分页器
Python版PHP内置的MD5()函数

Python程序教程

当前栏目

b站动漫_python爬b站视频

相关文章