战神系列游戏电脑版下载
hello,大家好,令人万众期待的战神4终于发售了!战神系列的新作就是不一样,好吧,赶紧下载游戏吧。和大家一起玩,更有意思呦,一起玩,一起合作。好了,赶紧下载来玩吧!
2024.11.21今天笔者准备分享怎么利用python爬虫来爬取今日头条的图片。这次的爬虫策略和以往的不同,第一篇文章爬取小米商城图片时,其图片的url直接位于其源代码中,而这次这是随着鼠标的滚动而逐渐加载出内容的,我们把这称为ajax,即异步js和xml。简单来说就是我们需要分析鼠标下滑后更新的ajax文件,其为xhr类型。
由图可知,当我们下滑时,更新了xhr文件,接下来我们就分析该文件有什么特点。
在分析该文件后,我们可知我们实际上访问的url是上图的请求url,鼠标继续下滑,观察该url有什么特点,在对比后可知,随着我们鼠标的向下滑动,请求的url参数变化的只有page_num,那么我们只需要在爬虫程序中对这个参数进行变化就能获得后续内容了。点开预览,可以看到我们要的所有数据都在这个文件里,这个文件为json类型。下面的代码行,我将讲解注释在代码块中。
from urllib import responseimport requestsfrom urllib.parse import urlencodeimport osheaders={‘User-Agent‘:‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36 Edg/97.0.1072.69‘,‘Cookie‘:‘msToken=4ahLuiLjfpuWMD5OwhpAL_xiJEGVTVxP-cFoz8v3SSQZ9OPIHwkEvo7qiSF4Y49SZ4Iidend2CSb0TKG77a-yYW03aeDDOodAIEkzTNlQmHdozLZBg==; ttwid=1%7CTtoq2ISGEhV8CtPheOMJZ1r1H00RLEAjYyx3M88iP_w%7C1643090726%7Cf5008ad95c4e84bd2e0d71510562329c88f39574e00fc5f9deba7c679fe6e47a; _S_DPR=1.25; _S_IPAD=0; MONITOR_WEB_ID=7057020878386791973; _S_WIN_WH=428_763‘,‘Host‘:‘so.toutiao.com‘,‘X-Requested-With‘: ‘XMLHttpRequest‘,}#请求头,注明xml类型base_url = ‘https://so.toutiao.com/search?‘def request_page(page):params={‘keyword‘:‘黑丝‘,#这个为我们搜索的关键词‘pd‘:‘atlas‘,‘source‘:‘search_subtab_switch‘,‘dvpf‘:‘pc‘,‘aid‘:‘4916‘,‘page_num‘:str(int(page)),‘rawJSON‘:‘1‘,‘search_id‘:‘2022012514064501021204610125FEFE2C‘}#params为请求url的参数,这里可变参数只有pageurl = base_url + urlencode(params)#将基础url和参数进行拼接try:response = requests.get(url,headers=headers)if response.status_code==200:return response.json()#在请求成功时返回json文件,应为xhr文件里为json格式except requests.ConnectionError as e:return Nonedef parse_json(json):if json:datas=json.get(‘rawData‘).get(‘data‘)for result in datas:result={‘text‘:result[‘text‘],‘url‘:result[‘img_url‘]}write_result(result)def write_result(result):global numwith open(‘%d.jpg‘% num, ‘wb‘) as f:response = requests.get(result[‘url‘])f.write(response.content)num+=1if __name__ == ‘__main__‘:page = 1num=1for i in range(3):json = request_page(page)parse_json(json)page+=1#最后我我们对这个参数进行变化,遍历。最后的效果图如下:
最后,如果大家喜欢的文章给我点点关注,我会不定期更新文章。
hello,大家好,令人万众期待的战神4终于发售了!战神系列的新作就是不一样,好吧,赶紧下载游戏吧。和大家一起玩,更有意思呦,一起玩,一起合作。好了,赶紧下载来玩吧!
2024.11.21现在电脑便签软件在工作中很受欢迎,很多人都用便签软件来协助自己更便捷的工作,而且因为大家对便签软件的功能使用需求,导致便签软件不断的推陈出新,开发功能,那么在这么多的便签软件中,有没有推荐的好用的电脑...
2024.11.20斗罗大陆3龙王传说单机版是一款源自同名IP小说的回合制角色扮演正版手游,零流量启动,完全不需要任何网络,真正的单机版游戏,随时随地打开游玩。斗罗大陆3龙王传说单机版游戏原汁原味还原小说剧情,唐三、小舞...
2024.11.18地球末日生存是一款需要团队协作的模拟生存经营游戏,整个游戏采用了高品质的2.5D游戏图形,十分平滑流畅的游戏画面,让玩家可以有一个更好的游戏体验,在这个游戏里,有多种不同种类的僵尸,如普通的低级僵尸,...
2024.11.22平时在手机端头条创作,不加广告是不会有收益的,手机上也不好找到广告设置按钮,在电脑上就很方便,我也是在头条创作63天,今天才开始使用电脑,有没有错过百万的感觉。废话不说,上干货。 步骤如下:打开电脑...
2024.11.22