-
找到对应想要
学习
的地址,比如:https://www.missevan.com/mdrama/19255
-
进入对应地址后,键盘按F12或者鼠标‘右键-检查’,重新加载页面后,将鼠标分别点
Network
和
Fetch/XHR
。点
Network
是为了获取当前此次页面的加载都有哪些行为,点
Fetch/XHR
是为了获取当前广播剧对应的所有剧集id(不必登录或者挨个去对应的第几集去下载)
-
从Network中分析到,Fetch/XHR中的地址:https://www.missevan.com/dramaapi/getdrama?drama_id=19255可以获取到全部剧集id,所以我们从这个地址开始遍历
-
参考代码如下:
import time
import requests
import json
def get_html(url):
response = requests.get(url)
return response
def parse(response):
json_data = response.json()
title = json_data['info']['sound']['soundstr']
soundurl = json_data['info']['sound']['soundurl']
return title, soundurl
def save(title, mp3_data):
path = r'D:\pythonData\MaoEr\ '
with open(path + title + '.mp3', mode='wb') as f:
f.write(mp3_data)
print('当前时间为:', time.time(), '当前剧集《', title, '》下载完成!!!')
start_time = time.time()
print('开始了:', start_time)
url = 'https://www.missevan.com/dramaapi/getdrama?drama_id=19255'
allDramaInfo = get_html(url).text
jsonStr = json.loads(allDramaInfo)
episodes = jsonStr['info']['episodes']['episode']
for episode in episodes:
sound_id = episode['sound_id']
mp3_url = 'https://www.missevan.com/sound/getsound?soundid=' + str(sound_id)
resp_2 = get_html(mp3_url)
title, soundurl = parse(resp_2)
mp3_data = get_html(soundurl).content
save(title, mp3_data)
print('结束了,一共花费了:', time.time() - start_time, '秒')
猫耳简单过滤弹幕脚本js插件是由作者GeTing分享的一个浏览器扩展插件。猫耳弹幕不过滤真要命,这是个简单的过滤插件,添加关键字回车生效。
什么是脚本?
脚本是批处理文件的延伸,是一种纯文本保存的程序,一般来说的计算机脚本程序是确定的一系列控制计算机进行运算操作动作的组合,在其中可以实现一定的逻辑分支等。
js脚本各浏览器安装教程
各浏览器对本方法的支持有所不同:
Chrome---设置
简洁和清晰的层次结构使得 JSON 成为理想的数据交换语言。易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。稍加分析可以看出,type为热门类型(可选参数为movie,tv),tag为热门电影电视剧的类型(热门,最新,豆瓣高分等参数),page_limit为展示条数,page_start从第几部开始。JSONPath是一种信息抽取类库,是从JSON文档中抽取指定信息的工具,提供多种语言实现版本,包括Javascript、Python、PHP和Java。验证JsonPath的执行效果。
第一种:封锁user-agent破解
user-agent时浏览器的身份标识,网站就是通过user-agent来确定浏览器类型的。当我们在请求时发现,通过get函数发送的请求返回的内容与在PC浏览器检查的不一样。就可以首先考虑在get函...
原创文|Space9
猫耳FM音频与普通音频的差异
首先我们发现猫耳FM音频是没有后缀名的音频文件,然后我们通过对比发现猫耳FM音频文件并不是什么加密文件,只是将音频文件、封面图片、弹幕文件合并到了一起(导致其他音频播放器无法识别音频)。
如何分离中间部分的音频文件
我们要分离中间部分的音频文件需要获得以下两个信息(文件的开头和结尾)。
猫耳FM的文件头探究
第21-24字节 0014H 001...
提到二次元,你只知B站?其实——ABCDEFGHIJKLMNOP,我们二次元像这样的圣地还有一个字母表!这些以字母打头的站子,有的是国内第一批二次元发源地,有国际上口耳相传的御宅基地,也...
headers = {
'cookie': '_uab_collina=155114329401284895128454; token=5c74919c61926876aac815ad%7Cc5ccff11...
"https://www.ximalaya.com/revision/play/album?albumId="+albumId+"&pageNum="+str(pageNum)+"&sort=-1&pageSize=30"
4.代码供上:
# -*- c...
之前写过爬取图片的一篇文章,这回来看看如何爬取音频。图片,音频,视频这类都可以通过二进制方式保存到本地下载下来。
爬取图片文章的链接:
python爬取图片并以二进制方式保存到本地
本次我们爬取的目标是–喜马拉雅FM
喜马拉雅FM有数不计的音频,这些音频都有自己的分类,所以进一步给自己抛出一个需求,爬取喜马拉雅所有分类的音频
接下来我们来分析这些分类,找到所有分类 h...