解压电脑系统的软件下载
准备工作:1、提前准备好pr2022软件安装包(*没有的看文末*)2、系统必须是Windows 10 64bit3、保证电脑中有任意一款解压软件安装步骤1.找到下载好的安装包,并将其解压到当前位置2....
2024.11.22如今网络上很多小说网站都有免费的小说阅读,但是它不提供下载全本的服务,目的也是为了获得更多的流量,资源君就不服了,今天刚好看到一个小说网站,就想弄本小说来看看,于是拿起电脑,噼里啪啦写了一个下载小说的Python代码,下面我来带大家读一读代码(具体的代码讲解我已经写在注释里了)!
1.首先第一步,导入两个我们需要的包
# 用于获取网页的htmlfrom urllib import request# 用于解析htmlfrom bs4 import BeautifulSoup2. 我们来分析一下,我们要抓取的小说页面
(广告还挺显眼的)
我们看下这个界面然后再来看看html源码
我们会发现,我框住的地方正是我们所需要的地方,但是注意上面的最新章节和我们的正式的小说目录也就是下面的地方,他们都处于中,待会大家可以看看我是怎么处理的。
然后再来看看小说阅读的界面:
这个界面就很简单了,我们来看看HTML源码:
很容易看到标签中的正是每一章的标题,
标签中的也就是正文
OK,经过我们初步分析,我们可以开始写代码了!
3.首先我们写出获取网页html源码的一个方法:
# 得到网页的htmldef getHtml(url):url = urlres = request.urlopen(url)res = res.read().decode()# print(res)return res这个方法传入一个url,会返回一个html源码
4.然后我们再来写一下,获取整本小说所有章节的链接的方法:
# 解析小说章节页面,获取所有章节的子链接def jsoupUrl(html):# 获取soup对象url_xiaoshuo = BeautifulSoup(html)# 因为我们要拿取class为box1中的divclass_dict = {‘class‘: ‘box1‘}url_xiaoshuo = url_xiaoshuo.find_all(‘div‘, attrs=class_dict)# 因为分析html中的代码可以发现div的class为box1的有两个,通过上面的代码返回的是一个list格式的结果,所以下面的索引应该是1# 我们要获取li中的值,所以find_all,这个方法返回的是一个list集合url_xiaoshuo = url_xiaoshuo[1].find_all(‘li‘)# print(url_xiaoshuo)# 创建一个集合,用于存放每个章节的链接url_xs = []for item in url_xiaoshuo:# 获取每个元素中的href值url = item.a[‘href‘]# 将值传入url_xs集合中url_xs.append(url)return url_xs具体的解释,我已经写在注释里了,不懂的可以在公众号后台留言
5.我们获取到每个章节的链接之后,我们就需要把每一章节的内容给弄下来并且把它写入到txt文本而且每个文本的标题为章节的标题
# 解析小说每个章节的的主要内容def jsoupXiaoshuo(list):for item in list:html = getHtml(item)html = BeautifulSoup(html)# 获取小说标题title = html.h1.get_text()xiaoshuo = html.find_all(‘p‘)for item in xiaoshuo:str = item.get_text()# open中的第二个参数是让每一次的字符串接连到上一个字符串,千万不能是wwith open(title + ‘.txt‘, ‘a‘) as f:f.write(str+‘\n‘)6.最后我们在main方法中运行这几个方法即可:
if __name__ == ‘__main__‘:html = getHtml("http://www.136book.com/dadaozhaotian/")url_xs = jsoupUrl(html)jsoupXiaoshuo(url_xs)大功告成!
不懂的可以在公众号后台留言,我全部都会回复的哦!
准备工作:1、提前准备好pr2022软件安装包(*没有的看文末*)2、系统必须是Windows 10 64bit3、保证电脑中有任意一款解压软件安装步骤1.找到下载好的安装包,并将其解压到当前位置2....
2024.11.22文件同步备份工具都有哪些?在你需要文件同步时你最先考虑的是选择哪个软件?今天小西给你推荐一款非常简单实用的文件同步工具-FileYee。文件同步备份工具:FileYee同步备份模式:本地同步备份、百度...
2024.11.17Windows Server 2019是由微软(Microsoft)官方推出的最新版服务器版操作系统,该系统基于Win Server 2016开发而来,后者是微软迄今为止普及速度最快的服务器系统。Wi...
2024.11.22随着微软对win7系统的服务停止,各类硬件厂商也慢慢发布新品硬件适配win10系统的使用,比如华硕、技嘉、华擎、微星等大厂商,部分主板已经无法安装win10系统,当然大多数新品主板也会兼容win7系统...
2024.11.21转自堆糖网2.《开局就无敌, 我获得智能领袖能量系统》 作者:丽声 简介【热血+御姐+励志+写实+日常+猎奇+冒险+泡妞+咸鱼翻身+绝处逢生+悬疑】 “咳咳咳……咳咳咳!同学……咳咳咳,同学们祝你们...
2024.11.20