为了账号安全,请及时绑定邮箱和手机立即绑定

反反爬虫之js加密参数获取

反爬虫与反反爬虫从爬虫诞生开始就已经存在,反爬策略层出不穷,反反爬也都应对有招。

就我目前碰到的反爬,从简单的user-agent,ajax,封ip,到限制账号访问频率,验证码,加密参数等。这些都是非常常见的反爬,相信大家基本上都碰到过,除此之外,也有一些调皮的网站会有一些有特色的反爬,比如某个招聘网站,网页元素审查看到的标签排版及一些属性与网页源码有点出入,通过js对网页标签进行了改动(这里并不是指的ajax加载新内容),对于一些接触爬虫不久的朋友,可能会死磕在这里,用bs/xpath怎么死都取不出对应的内容呢,因为他们一直在f12元素审查,那并不是源码的真实面目。以上这个例子,来自我的一个爬虫初学者朋友。还有很多有趣的反爬,比如以下这个。。。。

https://img1.sycdn.imooc.com//5d53ed2300015a0705920113.jpg

这是我今天在一个群里面看到的哈哈。

对反爬虫与反反爬虫的恩怨情仇感到有兴趣的,推荐看这篇文章,或许你已经看过了:干货 | 那些你不知道的爬虫反爬虫套路

在tg上一个python爬虫群里面,有个群友让我帮忙解密一个网站的加密参数,当时记着了,现在考完有时间就看了看。

这个网站是一个快手火山抖音小视频合集网站,网站链接在这:

https://kuaiyinshi.com/

https://img1.sycdn.imooc.com//5d53ed270001ac5a08960486.jpg

这个网站有一个接口,可以获取随机一个(我也不知道是什么规则,姑且称为随机)小视频的内容包括评论等等:

https://kuaiyinshi.com/api/dou-yin/recommend/

可以从这个接口中获得一个视频的url,比如:

//aweme.snssdk.com/aweme/v1/play/?video_id=:117:150:176:161:188:157:125:184:137:98:176:123:117:102:131:159:122:99:128:161:141:203:128:137:190:147:130:166:163:152:134:203&line=0&ratio=720p&media_type=4&vr_type=0&test_cdn=None&improve_bitrate=0

但事实上,直接用这个链接是获取不到视频的,通过抓包发现,真正的视频链接是以下这个:

//aweme.snssdk.com/aweme/v1/play/?video_id=4fc7b70d02b7436593373e35ec4bbe9a&line=0&ratio=720p&media_type=4&vr_type=0&test_cdn=None&improve_bitrate=0

通过对比可以看出,video_id参数的值i发生了改变,由:117:150:176:161:188:157:125:184:137:98:176:123:117:102:131:159:122:99:128:161:141:203:128:137:190:147:130:166:163:152:134:203变为了4fc7b70d02b7436593373e35ec4bbe9a

需要找到这个加密方法。

以下讲讲步骤

首先,肯定是打开网页开发者工具,刷新网页,抓包,分析抓到的http包内容。

https://img1.sycdn.imooc.com//5d53ed2c000188a408950471.jpg

然后,肯定是,ctrl+shit+F,全局搜索,搜索关键字:video_id。

https://img1.sycdn.imooc.com//5d53ed320001eb7509050324.jpg

可以看到,由两个js文件中出现了video_id。

分别为:

https://kys.tqdn.cn/js/main.js?t=1530178376    

https://kys.tqdn.cn/js/public.js?t=1529140999    

其中main.js如下:

https://img1.sycdn.imooc.com//5d53ed350001eca709040479.jpg

太乱了,js代码就和毛线球一样,愿意的话,可以把它扯乱成一团,然后让你去把它理清。很显然,为了反爬,这个网站就是这样做的。

但不管怎么说,还得继续。

把它们全部复制出来,然后找个在线格式化js代码的网页小工具。得到如下格式化代码:

https://img1.sycdn.imooc.com//5d53ed3a0001a15b08850455.jpg

另外一个js文件也是这样。

然后再定位video_id在这两个js文件中的位置,观察一下发现,public.js中的video_id和加密方法无关系

https://img1.sycdn.imooc.com//5d53ed3f000128ee08790400.jpg

在一个judgeSource的函数里面,大概可以看出是判断视频为抖音还是快手抑或是火山的一个函数。

所以只需观察main.js文件,大概长这个样子:

https://img1.sycdn.imooc.com//5d53ed420001ec5609060431.jpg

是不是很崩溃。。。

先定位下video_id在这个文件中的位置:

https://img1.sycdn.imooc.com//5d53ed4600016cac08930203.jpg

看到这第一个变量 __Ox1169c就大概明白了,原来这个文件把一些关键字词全部让这个__Ox1169c数组元素代替了,所以这个js文件才看起来那么让人发慌。

到这里其实考验的就是耐心了,一缕缕的把代码过一遍就行。

我们先看这些函数名字,发现都很有规律的,比如说,我们看到一个creatplay函数,猜也能猜出它的作用吧。在控制台试一下就知道了:

https://img1.sycdn.imooc.com//5d53ed4a000166a608990626.jpg

发现一回车,视频便换了一个,ok这个函数肯定和加密video_id有关,我们以这个函数为入口开始看。

https://img1.sycdn.imooc.com//5d53ed9e0001c65809030614.jpg

看第一个 var _ =  __Ox1169c[94];

我们可以在控制台输入 __Ox1169c[94] 回车,很方便的查看 __Ox1169c[94]的值

https://img1.sycdn.imooc.com//5d53eda10001d66f06080382.jpg

按照这个方法,一个个把它还原成成直观的js代码,大致理解。

最后定位到这里:

https://img1.sycdn.imooc.com//5d53eda50001878905790137.jpg

发现 ab3d7fc 这个函数就是加密方法,ok到此为止,继续看 ab3d7fc 这个函数。

https://img1.sycdn.imooc.com//5d53edaa0001c13908090452.jpg

这个函数的两个参数,一个是video_id,一个是ky,ky在控制台输入也可获得。

https://img1.sycdn.imooc.com//5d53edad0001bf5708210364.jpg

将 ab3d7fc 这个函数,还原成本来的js代码:

https://img1.sycdn.imooc.com//5d53edb200017c2f09130657.jpg

这个时候,可以选择用execjs来执行这段js,或者把它换成python方法。

https://img1.sycdn.imooc.com//5d53edb70001f68806730270.jpg

到此,成功获取了这个网站js加密参数的加密方法。

想爬抖音视频,却不知道抖音的app内加密参数,又不会逆向,除了分享链接接口的方法,这个网站上的抖音视频也很好爬。



作者:icetong_k
链接:https://www.jianshu.com/p/5c945834270d


点击查看更多内容
TA 点赞

若觉得本文不错,就分享一下吧!

评论

作者其他优质文章

正在加载中
  • 推荐
  • 1
  • 收藏
  • 共同学习,写下你的评论
感谢您的支持,我会继续努力的~
扫码打赏,你说多少就多少
赞赏金额会直接到老师账户
支付方式
打开微信扫一扫,即可进行扫码打赏哦
今天注册有机会得

100积分直接送

付费专栏免费学

大额优惠券免费领

立即参与 放弃机会
意见反馈 帮助中心 APP下载
官方微信

举报

0/150
提交
取消