爬lol全英雄皮肤

标签: python  

初学爬虫简单的爬取一下lol全英雄皮肤,自己写的,和网上CV的好不一样,觉得文章说得过去的记得留下足迹。

一 分析页面

1.英雄列表
首先在英雄页面找到hero_list.js;至于为什么是这个文件,看图:
在这里插入图片描述
观察该文件响应头,获取访问的url,打开新的窗口,访问该链接,能获取对应数据。(这边显示在一行很男查看,推荐一款好用的chrome插件JSONView,可以帮帮我们格式化json数据,可以在github搜索下载)
在这里插入图片描述
得到以下数据
在这里插入图片描述
可以看得出来,这是一个全英雄的列表,可以通过遍历获取全英雄的id和名称。

  1. 英雄皮肤
    我们获得了英雄列表数据,接下来就是获取各个英雄皮肤数据,老规矩查找有skins对应数据的文件
    在这里插入图片描述
    查看响应头,很简单的可以看出来,这个url只有末尾的id不一样
    在这里插入图片描述
    新开窗口查看url内容
    在这里插入图片描述
    有我们需要的mainImg链接,于是,事情就简单了

爬虫实现

遍历英雄列表,再遍历对应的皮肤列表,挨个保存。看代码吧,不复杂,所以我把说明放在了代码里

import requests
import json
import os

# 定义一个获取图片名称的方法,因为有一些皮肤名称包含“/”,会出错。
# 小贴士:replace不会修改原字符串,需要重新赋值
def get_img_name(i):
    img_name = detail_dict.get("skins")[i]["name"]
    img_name = img_name.replace('/', '-')
    return img_name
    
# url1是英雄列表的url
url1 = "https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js"
headers = { 
            "User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1"
            }

os.mkdir("lol")     # 先创建一个lol目录

# 访问页面,回去信息
res = requests.get(url1, headers=headers)
# 将字符串加载成字典
# 小贴士: loads和dumps经常搞混的可以这样记:loads是加载的意思,对应将字符串加载成字典。(这样一来还是很好记忆的,至少我这么认为)
content = json.loads(res.content)    

# 遍历所有英雄
for i in range(len(content.get("hero"))):
    # 1. 获取英雄名称并且创建对应英雄目录 ----- 格式如:黑暗之女-安妮
    hero_first = content.get("hero")[i]["name"]
    hero_last = content.get("hero")[i]["title"]
    hero_name = hero_first+"-"+hero_last
    os.mkdir("lol/"+hero_name)
    # 2. 获取英雄id,拼接url
    hero_id = content.get("hero")[i]["heroId"]
    url_detail = "https://game.gtimg.cn/images/lol/act/img/js/hero/"+hero_id+".js"
    # 3. 访问英雄详细
    detail = requests.get(url_detail, headers=headers)
    detail_dict = json.loads(detail.content)            # 将字符串加载成字典
    # 4. 遍历该英雄的所有皮肤
    for i in range(len(detail_dict.get("skins"))):
        # 如果图片存在,爬取图片(因为在英雄列表中有很多空的图片)
        if detail_dict.get("skins")[i]["mainImg"]:
            img_url = detail_dict.get("skins")[i]["mainImg"]
            img = requests.get(img_url, headers=headers)
            img_name = get_img_name(i)
            with open("lol/"+hero_name+"/"+img_name+".jpg", "wb") as f:
                f.write(img.content)

这样子,讲道理就已经可以实现了,是不是很简单。这边还没有做代码优化,没有协程面向对象的形式,而且效率讲真的有点低,等再深造几天,回来再做补充。觉得文章还说得过去的,记得留下小小足迹o。

版权声明:本文为weixin_42180497原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/weixin_42180497/article/details/106875513

智能推荐

TYVJ 4864 天天去哪吃 || 清北学堂金秋杯大奖赛

题目描述: 记录一下i这个值上次出现的位置在哪里,就是pre...

java反编译

jvm 把Boolean类型的值flag当做int类型处理。​​​ Foo.java: 由 class 文件生成 jasm 文件:java -jar asmtools.jar jdis Foo.class > Foo.jasm  修改jasm文件: 执行反编译: java -jar jd-gui-1.6.6.jar File 打开Foo.class文件:b修改为2 重新执行java...

【学习笔记】03-v-html的学习和示例

v-html的认识和使用 示例: 显示结果: 注意:v-html是有复制的...

Java实现在线考试系统(系统介绍)

1.和现在有的考试系统有以下几种优势: a.和现在有的系统比较起来,本系统有科目、章节、老师、学生、班级等信息的管理,还有批阅试卷查看已批阅试卷等。传统的考试系统划分并不细,业务功能简单。 b.和学校的考试系统还有外面的考试系统比较起来,本系统是B/S结构,学校的考试系统一般为C/S结构,性能方面不如B/S结构,并且C/S接口需要安装客户端,客户端压力很大,我的系统只需要电脑具有浏览器,在同一局域...

计算机视觉--多视几何初步尝试

基础矩阵的原理 K和K’分别是两个相机的参数矩阵。p和p’是X在平面π的坐标表示。所以可以得出 具体计算过程 代码: #!/usr/bin/env python coding: utf-8 from PIL import Image from numpy import * from pylab import * import numpy as np from imp ...

猜你喜欢

java初学者怎么学习才可以快速入门

java初学者怎么学习才可以快速入门 一、了解JAVA 我们要知道:Java是由Sun Microsystems公司于1995年5月推出的Java面向对象程序设计语言。 Java之父:詹姆斯·高斯林 1.1 java的三个体系 Java SE(Java Platform Standard Edition)。Java SE 以前称为 J2SE。它允许开发和部署在桌面、服务器、嵌入式环境...

字段属性之主键&增删改查&自增长&唯一键约束

字段属性之主键&自增长&唯一键约束 主键 主键:primary key 主要的键 一张表中只有一个字段可以使用对应的键,用来唯一的约束该字段里面的数据,不能重复,这种称之为主键 一张表只能最多一个主键 增加主键 SQL操作中有多种方式增加主键大体分为三种 1.在创建表的时候直接在字段之后跟primary key关键字(主键本身不允许为空) 优点:非常直接:缺点:只能使用一个字段作为...

linux下 基于libmad的socket多用户mp3音频在线播放服务器

在众多大神的帮助下,这个在线播放流媒体服务器终于完成啦。。。。 这个mp3流媒体服务器设计的思路是,服务器程序server用多线程实现和多个客户端的通信(这是必然的),然后发送给客户端当前的音频列表公客户端选择,之后根据k客户端的选择给多个客户端传输相应mp3文件的数据,同时,客户端进行实时地音频解码并播放。 关于libmad开源mp3音频解码库的使用,见上一篇博客吧。。。。 在服务器程序这一端,...

Nginx

Nginx Nginx简介: Nginx是一个高性能的http和反向代理服务器,特点是有内存少,并发能力强,事实上Nginx的并发能力确实在同类型网页服务器中表现较好, Nginx用作web服务器:Nginx可以作为静态页面的web服务器,同时还支持CGI语言,但不支持java,java程序只能通过Tomcat配合完成。Nginx专为性能优化而开发,性能是其最重要的考量,实现上非常注重效率,能经受...

SpringCloud Alibaba - Sentinel入门案例(二)(流控规则 | 直接 / 关联 / 链路 / 快速失败 / Warm Up / 排队等待)

SpringCloud Alibaba - Sentinel入门案例(二)(流控规则 | 直接 / 关联 / 链路 / 快速失败 / Warm Up / 排队等待) 回溯 Sentinel 基本概念 正文 环境准备 流控规则介绍 简单介绍 对 阈值类型 / 单机阈值做 测试 流控模式 直接流控模式 关联流控模式 链路流控模式 资源名称的修改 链路模式正文 坑来了,怎么解决? 禁止收敛URL的入口 ...