爬lol全英雄皮肤
标签: python
初学爬虫简单的爬取一下lol全英雄皮肤,自己写的,和网上CV的好不一样,觉得文章说得过去的记得留下足迹。
一 分析页面
1.英雄列表
首先在英雄页面找到hero_list.js;至于为什么是这个文件,看图:
观察该文件响应头,获取访问的url,打开新的窗口,访问该链接,能获取对应数据。(这边显示在一行很男查看,推荐一款好用的chrome插件JSONView,可以帮帮我们格式化json数据,可以在github搜索下载)
得到以下数据
可以看得出来,这是一个全英雄的列表,可以通过遍历获取全英雄的id和名称。
- 英雄皮肤
我们获得了英雄列表数据,接下来就是获取各个英雄皮肤数据,老规矩查找有skins对应数据的文件
查看响应头,很简单的可以看出来,这个url只有末尾的id不一样
新开窗口查看url内容
有我们需要的mainImg链接,于是,事情就简单了
爬虫实现
遍历英雄列表,再遍历对应的皮肤列表,挨个保存。看代码吧,不复杂,所以我把说明放在了代码里
import requests
import json
import os
# 定义一个获取图片名称的方法,因为有一些皮肤名称包含“/”,会出错。
# 小贴士:replace不会修改原字符串,需要重新赋值
def get_img_name(i):
img_name = detail_dict.get("skins")[i]["name"]
img_name = img_name.replace('/', '-')
return img_name
# url1是英雄列表的url
url1 = "https://game.gtimg.cn/images/lol/act/img/js/heroList/hero_list.js"
headers = {
"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 13_2_3 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.3 Mobile/15E148 Safari/604.1"
}
os.mkdir("lol") # 先创建一个lol目录
# 访问页面,回去信息
res = requests.get(url1, headers=headers)
# 将字符串加载成字典
# 小贴士: loads和dumps经常搞混的可以这样记:loads是加载的意思,对应将字符串加载成字典。(这样一来还是很好记忆的,至少我这么认为)
content = json.loads(res.content)
# 遍历所有英雄
for i in range(len(content.get("hero"))):
# 1. 获取英雄名称并且创建对应英雄目录 ----- 格式如:黑暗之女-安妮
hero_first = content.get("hero")[i]["name"]
hero_last = content.get("hero")[i]["title"]
hero_name = hero_first+"-"+hero_last
os.mkdir("lol/"+hero_name)
# 2. 获取英雄id,拼接url
hero_id = content.get("hero")[i]["heroId"]
url_detail = "https://game.gtimg.cn/images/lol/act/img/js/hero/"+hero_id+".js"
# 3. 访问英雄详细
detail = requests.get(url_detail, headers=headers)
detail_dict = json.loads(detail.content) # 将字符串加载成字典
# 4. 遍历该英雄的所有皮肤
for i in range(len(detail_dict.get("skins"))):
# 如果图片存在,爬取图片(因为在英雄列表中有很多空的图片)
if detail_dict.get("skins")[i]["mainImg"]:
img_url = detail_dict.get("skins")[i]["mainImg"]
img = requests.get(img_url, headers=headers)
img_name = get_img_name(i)
with open("lol/"+hero_name+"/"+img_name+".jpg", "wb") as f:
f.write(img.content)
这样子,讲道理就已经可以实现了,是不是很简单。这边还没有做代码优化,没有协程面向对象的形式,而且效率讲真的有点低,等再深造几天,回来再做补充。觉得文章还说得过去的,记得留下小小足迹o。
智能推荐
java反编译
jvm 把Boolean类型的值flag当做int类型处理。 Foo.java: 由 class 文件生成 jasm 文件:java -jar asmtools.jar jdis Foo.class > Foo.jasm 修改jasm文件: 执行反编译: java -jar jd-gui-1.6.6.jar File 打开Foo.class文件:b修改为2 重新执行java...
Java实现在线考试系统(系统介绍)
1.和现在有的考试系统有以下几种优势: a.和现在有的系统比较起来,本系统有科目、章节、老师、学生、班级等信息的管理,还有批阅试卷查看已批阅试卷等。传统的考试系统划分并不细,业务功能简单。 b.和学校的考试系统还有外面的考试系统比较起来,本系统是B/S结构,学校的考试系统一般为C/S结构,性能方面不如B/S结构,并且C/S接口需要安装客户端,客户端压力很大,我的系统只需要电脑具有浏览器,在同一局域...
计算机视觉--多视几何初步尝试
基础矩阵的原理 K和K’分别是两个相机的参数矩阵。p和p’是X在平面π的坐标表示。所以可以得出 具体计算过程 代码: #!/usr/bin/env python coding: utf-8 from PIL import Image from numpy import * from pylab import * import numpy as np from imp ...
猜你喜欢
java初学者怎么学习才可以快速入门
java初学者怎么学习才可以快速入门 一、了解JAVA 我们要知道:Java是由Sun Microsystems公司于1995年5月推出的Java面向对象程序设计语言。 Java之父:詹姆斯·高斯林 1.1 java的三个体系 Java SE(Java Platform Standard Edition)。Java SE 以前称为 J2SE。它允许开发和部署在桌面、服务器、嵌入式环境...
字段属性之主键&增删改查&自增长&唯一键约束
字段属性之主键&自增长&唯一键约束 主键 主键:primary key 主要的键 一张表中只有一个字段可以使用对应的键,用来唯一的约束该字段里面的数据,不能重复,这种称之为主键 一张表只能最多一个主键 增加主键 SQL操作中有多种方式增加主键大体分为三种 1.在创建表的时候直接在字段之后跟primary key关键字(主键本身不允许为空) 优点:非常直接:缺点:只能使用一个字段作为...
linux下 基于libmad的socket多用户mp3音频在线播放服务器
在众多大神的帮助下,这个在线播放流媒体服务器终于完成啦。。。。 这个mp3流媒体服务器设计的思路是,服务器程序server用多线程实现和多个客户端的通信(这是必然的),然后发送给客户端当前的音频列表公客户端选择,之后根据k客户端的选择给多个客户端传输相应mp3文件的数据,同时,客户端进行实时地音频解码并播放。 关于libmad开源mp3音频解码库的使用,见上一篇博客吧。。。。 在服务器程序这一端,...
Nginx
Nginx Nginx简介: Nginx是一个高性能的http和反向代理服务器,特点是有内存少,并发能力强,事实上Nginx的并发能力确实在同类型网页服务器中表现较好, Nginx用作web服务器:Nginx可以作为静态页面的web服务器,同时还支持CGI语言,但不支持java,java程序只能通过Tomcat配合完成。Nginx专为性能优化而开发,性能是其最重要的考量,实现上非常注重效率,能经受...
SpringCloud Alibaba - Sentinel入门案例(二)(流控规则 | 直接 / 关联 / 链路 / 快速失败 / Warm Up / 排队等待)
SpringCloud Alibaba - Sentinel入门案例(二)(流控规则 | 直接 / 关联 / 链路 / 快速失败 / Warm Up / 排队等待) 回溯 Sentinel 基本概念 正文 环境准备 流控规则介绍 简单介绍 对 阈值类型 / 单机阈值做 测试 流控模式 直接流控模式 关联流控模式 链路流控模式 资源名称的修改 链路模式正文 坑来了,怎么解决? 禁止收敛URL的入口 ...