添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
相关文章推荐
憨厚的绿豆  ·  C# ...·  1 年前    · 
买醉的钥匙  ·  WinPcap - ...·  1 年前    · 

今天分析一个漫画网站,其中对于图片的url进行了加密。

目标网站:aHR0cHM6Ly9hYy5xcS5jb20vQ29taWMvY29taWNJbmZvL2lkLzUzMTA0MA==
接口网址:aHR0cHM6Ly9hYy5xcS5jb20vQ29taWNWaWV3L2luZGV4L2lkLzUzMTA0MC9jaWQvMQ==

以某一页的漫画图片网址为例:https://manhua.acimg.cn/manhua_detail/0/16_21_28_0e84853acedcd70c1b6abceb783bb056_2375.jpg/0

中间有一段参数进行了加密处理,通过观察源码能够发现网页中并没有图片的url信息,大概率是进行了js加密,防止爬虫去批量抓取。

随便找一个图片返回的包,点击Initiator找到一个堆栈下断,重新刷新。
在这里插入图片描述

在这里插入图片描述
这里就已经生成了img的列表,继续搜索生成位置。
在这里插入图片描述
imgSrcList[i] = _o.url 每循环一次将列表添加一个元素,实际上就是不断的给列表的下标赋值(可能说法不够准确,能理解就行)。再来看看_o.url在哪里定义。3789行_o = imgobj[i],这里的imgob也是一个列表,继续寻找。
在这里插入图片描述
这里可以看到PICTURE这里赋值给imgobj,找PICTURE。
在这里插入图片描述
继续搜索 _v.picture就找不到了。
在这里插入图片描述
不知道这个_v在哪里生成定义的,遇到事情不要慌。往上翻一翻,看看有什么可疑的地方。
在这里插入图片描述
标记了数据,下方是一个自执行函数,有一个eval函数。看到eval要打起精神。可能在这里就完成了加密。都知道eval是一个计算 JavaScript 字符串,并把它作为脚本代码来执行。对于eval加密怎么破解呢?可以直接将eval换成console.log进行输出就可以得到js的字符串。
在这里插入图片描述
放到本地格式化就可以得到结果,可以自己试一下。
尝试运行一下有几处报错。
在这里插入图片描述

输出一下W。
在这里插入图片描述
W是window对象,继续运行。
在这里插入图片描述

这回报了一个split属性没有定义。split是一个用于分割字符串的方法,那也就是W['DA' + 'TA']在这里是没有定义的。
在这里插入图片描述
先拿到本地,继续运行。
在这里插入图片描述
又提示错误,定位到错误位置看一下。
N = W['n' + 'onc' + 'e']不用说在这里也没有定义。
在这里插入图片描述
这两个值都拿到了,在本地运行一下。没有问题可以输出看一下结果。
在这里插入图片描述
复制url到浏览器看一下。
在这里插入图片描述
没得问题,这里就已经成功解密了。

现在还有一个要解决就是W的两个参数在哪里生成,搜索当前js文件是找不到的。找找源码。
在这里插入图片描述
在这里插入图片描述

用正则匹配一下放到js中调用就可以出结果了,然后持久化到本地就可以一直看漫画了,是不是很棒呢。

本来想更安全开发系列,想着复现一下长亭的rad。里面涉及到好多js逆向的知识,正好学习了一波,本身js逆向也是一个大坑,说不定也能完善好多以前的爬虫项目。学了也有一段时间了,来练练手吧涉及到具体的隐私链接会脱敏处理,主要分享技术思路。 普通爬虫技术:只需要发送`HTTP`请求,然后从响应中提取出图链接即可。这种方式的优点是简单易用。缺点是如果图链接是通过`JavaScript`动态生成的,或者需要用户进行一些特定操作才能获取的,那么这种方式就无法获取到图链接。 JS 逆向可以做到 最近在爬一个网站图的时候,发生了一件很有意思的事。当我拿到图链接后打开发现它和加载出来的图不一样啊,细看后发现原图是被切成了多段后倒序拼接在一起的。(给兄弟萌整两张图看看嗷)当时我整个人就不对劲了,但我是谁?爬虫小能手(自吹的),我能受着气?直接逮着就是一顿输出嗷。 原图: 加载出来的图: 提示:以下是本篇文章正文内容,下面案例可供参考 一、思路分析 一个优秀的爬虫选手,第一步都应该是整理思路 Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。观看零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。点击进入第一话后,分析网页源码,发现图保存在a标签下的img中,但是需要爬取的src是用。最终爬取的漫画如下( webp介绍 WebP,谷歌(google)开发的一种旨在加快图加载速度的图格式。提供了有损压缩与无损压缩(可逆压缩)的图文件格式,能节省大量的服务器带宽资源和数据空间。 webp转换 右键点击图,点击【在新标签页中打开图】。 若是看到地址栏的后缀是webp,把webp改为jpg/png,回车。然后再点击图,选择【另存为】,图存储为jpg/png。 若看到地址栏的后缀不是webp,点击图,选择【另存为】,图存储为wenp格式的。然后再次打开存在本地webp格式图,看到地址栏的后缀是we 逆向漫画柜图真实地址加密 前期笔者所有的逆向网页都是基于github上有现成的逆向完成代码或者项目来进行的,**注意!**这不代表文章是非原创的,只有笔者逆向思路枯竭的时候会去看代码学习一下逆向思路,下面开始逆向真实地址请求解析 现在大部分图或者小说网站,都会将图或者文字这些不想被人轻易获得的数据进行加密放入JS中,而非直接放入 爬取的网址呢,还是上一篇博文涉足的 https://www.dmzj.com/ 但是这一次,我们使用selenium来获得每个章节的所有图,因为动态网页比如常见的js动态生成,用静态方法访问网站并且获取html时,js动态生成的这一部分还没有生成,所以静态方法获取不了这一部分信息。 selenium的webdriver,我个人理解webdriver是模拟用户用浏览器访问网络,只不过不是用户亲自用鼠标是双击,而是用的代码。在这里本人使用的是Firefox浏览器。 这部分代码如下: # 无头浏览器 这样浏览器