萌の领域

【技术】python爬虫教程(3)

野生技术协会 pengpengf - 3

这是我写的爬虫教程的最后一篇。

今天讲视频下载。

视频下载很难,也很容易。

说它难是因为一个普通学过爬虫的人几乎找不到办法去下载那些被加密过的又没有下载按钮的视频。

现在大部分视频网站都会隐藏视频文件的真实地址,你顺着网页代码找大概率找到的是一个blob开头的地址,这个是假地址。

这些网站会将视频分割成小段,每段十多秒的视频,按顺序播放这些视频。

这些小段的视频是可以下载的,但是这些小段视频的地址却被隐藏起来了,这些地址很难找。

有些网站的这些数据被封装在一个.m3u8后缀的文件中,而有些网站采用了更加隐蔽的技术。

一个典型的使用m3u8的网站是我上一篇第二个案例的哪个网站。

网页加载以后,你可以在浏览器的开发者工具的网络项找到一个.m3u8后缀的文件,这个文件里有着所有这个完整视频需要的小段视频的地址,我们需要做的是把这些分片视频全部下载,然后用ffmpeg进行合成成一个完整的视频。

从python代码中获取网络项数据的方法查看:https://blog.csdn.net/qq_32502511/article/details/101536325

视频合成方法:https://jingyan.baidu.com/article/2a138328517dce464b134f24.html

我对这个使用的不多,几乎没用它写过项目。

说它简单是因为,我们不需要考虑去破解这些网站的加密,直接用现成的就好。

我对视频的下载几乎都依赖于某个工具或者是浏览器拓展,比如我前面发的下载工具https://imoe.org/157350.html

我也去这个工具的项目看了代码,但是具体怎么下载这些网站的视频的代码被隐藏起来了。

这是我目前使用的方法:

用python脚本获取一些需要的资源的主页的地址-》把这些地址写到一个文本文件里-》手动打开文件复制地址到Hitomi-Downloader里下载。

这是avgle.com的某个分类的视频,我们获取到这些地址之后就交给其他工具下载。

当然也不是说从代码一定没有办法,比如说某个网站的这些分段视频虽然隐藏的很好,但是它加载这些视频的时候我们是可以找到这些分片视频的地址的,假如这个网站对这些分片视频的地址命名非常有规律,比如就叫http+网站+视频编号+0001.ts这样的。但是很多网站的地址……,至少b站的我看了半天都看不出来。

又或者是最没有效率的方式:控制浏览器把视频实际播放一遍你也可以获得完整的视频。

好了,爬虫要说的就这么多。

总结一下,爬虫最重要的是会使用浏览器工具对网站结构进行分析,寻找要找的资源的地址及其规律,代码的话基本就那几样,多写几遍就熟悉了。我也不是什么大佬,爬虫都是自学的,写的项目都是这种爬某个网站资源的小项目。

淘宝直播APP邀请码:LRZYPSNP

抖音极速版邀请码:8001611981

今日头条极速版邀请码:E68471011

番茄免费小说邀请码:7420571651

求帮忙填一下。

谢谢大家了。

  • 萌の领域是一个和谐有爱的ACG文化交流圈,这里是众多二次元文化爱好者的集结地。
  • 本文章是由 萌の领域 会员 pengpengf 的创作作品。
  • 欢迎转载,但请务必注明来源,并且附上完整的地址:https://imoe.org/177970.html
  • 如资源链接失效,请点击上方举报,等待管理员处理。超过两个星期以上的资源,默认不补档,请考虑是否要点击下载。
  • 下载之前请查看评论,如果有人提示资源已失效请不要点击下载浪费萌币,也不要说作者骗币,下载消耗的萌币是被服务器回收了。

© 2019 - 2021 💝 IMOE.ORG