第3个回答 2021-07-27
确保自己有一定 Python 基础后,可以适当了解 http 协议,推荐<图解HTTP>,然后就是多看多练善于使用工具爬网页数据的时候,一定要熟练使用开发者工具,一个 f12 就可以打开浏览器的开发者工具,这一步就是你爬虫的第一步,上来就去教你爬数据的,基本上都是坑,都没有分析一下目标网页,拿什么去爬.
第4个回答 2020-08-19
我做一个简单的爬虫
首先
在电脑上打开浏览器(建议使用chorme,因为chorme里面的抓包工具强大)我这里以在哔哩哔哩爬取长城电影为例
进入长城播放界面,打开开发人员模式
点击网络等待完广告后按下CTRL + R
等待大约20-30秒连续两次按下size,因为电影的内存是在播放界面最大的
单击最上面的文件,里面有一个response还是requests,反正我记不清了,复制里面的东西
后面就简单了
打开cmd,或是pycharm在pycharm的terminal或cmd输入pip install requests
开始敲代码了
第一行不说了就是import requests
第二行粘贴刚刚复制的视频所在的url,但是注意,这个变量名会和视频名称有关
这里是长城电影 = url名称
第三行是定义视频资源这样是个变量,我们用get方法伪装成浏览器向网站发送请求
response = requests.get(url).consent
注意!一定要是consent,如果是text就变成网页源代码了
后面就是保存了
这里也不一一介绍了
with open('电影名称.mp4','wb') as file:
f.write(电影名称)
最后,见证奇迹的时刻
电影就出现在当前文件目录下了