Python爬虫——小说爬取

爬取小说并存入到txt文件中
小说网站 https://www.readnovel.com/
url特点 :
每本小说对应一个编号,所以每本小说对应的网址为
https://www.readnovel.com/chapter/#####/#####(小说编号)/

以爬取 小说阅读网杀破唐 为例
这里写图片描述

我们需要爬取的内容是其小说部分,所以以获取第一章内容为例:
1. 打开第一章的网页链接:
1.1 首先利用开发者模式 ,获取网页的 headers
这里写图片描述

现在爬取网页最基本的两个元素就可以得到了:

url="https://www.readnovel.com/chapter/22160402000540402/107513768840595159"
headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}

1.2 还是在开发者模式下,我们可以看到本页面的HTML代码
这里写图片描述
此时可以再代码中找到相应的小说第一章的内容
这里写图片描述
1.3 利用 beautifulSoup 获取 需要爬取部分

req = urllib.request.Request(url = url , headers = headers)
res = urllib.request.urlopen(req)
html = res.read()
# 到此,可获取网页的html代码

soup =  BeautifulSoup(html,'lxml')
nameText = soup.find('h3',attrs={'class':'j_chapterName'})
# 获取第一章的篇名
contentText = soup.find('div',attrs = {'class':'read-content j_readContent'})
# 获取第一章的内容

result = nameText.getText() + '\n' + contentText.getText()
result = result.replace('  ','\n  ')
# 到此 , 将获取到的篇名 以及 内容 存放在 result 中
f = open(savePath , "w")
f.write(result) 
# 将 获取的内容 存放在指定的路径 savePath 中

效果图:
这里写图片描述

2.获取多个章节内容
2.1 获取多章小说实质上就是在获取一章的基础上加个循环,但是其中比较重要的就是网页url的变动。我们每获取下一章的内容是都需要知道其相应的url。
2.2 获取下一章的url
这里写图片描述
每一章节的最后,都会有一个 “下一章“ 的选择 ,在本页面对应的url代码中,我们就可以找到相应的下一章的链接。
这里写图片描述
从这段代码可以很容易的获取下一章的url:

nextpage = soup.find('a' ,attrs = {'id':'j_chapterNext'})
if nextpage :
        currentURL = "https:" + nextpage['href']
else :
        currentURL = None
# 这里的 currentURL 就是本章节的下一章节的url

3.完整代码:

import urllib.request
from bs4 import BeautifulSoup

def getHtml(url , headers):
    req = urllib.request.Request(url = url , headers = headers)
    res = urllib.request.urlopen(req)
    html = res.read()
    return html

def saveTxt(path , html):
    f = open(path , "wb")
    f.write(html)

def praseHtml(currentURL , headers, path):

    #html = html.decode('utf-8')
    chapter = 0
    flag = 1
    while flag:
        chapter = chapter + 1
        if chapter >= 20:
            flag = 0
        # 因为章节太多了,所以就手动控制只爬取了前20章
        html = getHtml(currentURL , headers)
        savePath = path + "\\"+ str(chapter) + ".txt"
        # 将多章节分开存放,每一章节存为一个单独的txt文件,文件与章节书想对应,例如第一章就存为 1.txt 
        f = open(savePath , "w")
        soup =  BeautifulSoup(html,'lxml')
        nameText = soup.find('h3',attrs={'class':'j_chapterName'})
        contentText = soup.find('div',attrs = {'class':'read-content j_readContent'})
        result = nameText.getText() + '\n' + contentText.getText()
        result = result.replace('  ','\n  ')
        f.write(result)                             
        #到此实现第一章的爬取
        nextpage = soup.find('a' ,attrs = {'id':'j_chapterNext'})
        if nextpage :
            currentURL = "https:" + nextpage['href']
        else :
            currentURL = None
            flag = 0



def main():
    url="https://www.readnovel.com/chapter/22160402000540402/107513768840595159"
    headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36'}
    path = "###\\novel" 
# "###"代表的是相应的存放位置,然后将相应的多个文本文件存放在novel文件夹中
    praseHtml(url , headers , path)
    #saveTxt(path , html)

main()

存放效果图:
这里写图片描述

版权声明:本文为sinat_38052999原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/sinat_38052999/article/details/78571416