首页 / 知识
python怎么做反爬
2023-11-12 13:43:00
网络爬虫,是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。但是当网络爬虫被滥用后,互联网上就出现太多同质的东西,原创得不到保护。于是,很多网站开始反网络爬虫,想方设法保护自己的内容。
一:User-Agent+Referer检测
User-Agent是HTTP协议的中的一个字段,其作用是描述发出HTTP请求的终端的一些信息。
使得服务器能够识别客户使用的操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
服务器通过这个字段就可以知道访问网站的是什么人。对于不是正常浏览器的用户进行屏蔽。
解决方案:
伪装浏览器的User-Agent,因为每个浏览器的User-Agent不一样,并且所有的用户都能使用浏览器。所有每次请求的时候条件浏览器的User-Agent,就能解决UA检测
Referer是header的一部分,当浏览器向web服务器发送请求的时候,一般会带上Referer,告诉服务器我是从哪个页面链接过来的。例如有一些图片网站在你请求图片的时候,就会检测你的Referer值,如果Referer不符合,不会返回正常的图片。
解决方案:
在检测referer的请求中,携带符合的referer值。
二:js混淆和渲染
所谓JavaScript混淆,基本就是:
1.去掉一些实际没有调用的函数。
2.将零散的变量声明合并。
3.逻辑函数的精简。
4.变量名的简化。具体要看不同的压缩工具的考虑优劣。常见的有UglifyJS、JScrambler等工具。
js渲染其实就是对HTML页面的修改。比如有一些网页本身没有返回数据,数据是经过js加载之后添加到HTML当中的。当遇到这种情况的时候,我们要知道爬虫是不会执行JavaScript操作。所以需要用其他的方法处理。
解决方案:
1.通过阅读网站js源码,找到关键的代码,并用python实现。
2.通过阅读网站js源码,找到关键的代码,用PyV8,execjs等库直接执行js代码。
3.通过selenium库直接模拟浏览器环境
三:IP限制频次
WEB系统都是走http协议跟WEB容器连通的,每次请求至少会产生一次客户端与服务器的tcp连接。
对于服务端来说可以很清楚的查看到,一个ip地址在单位时间内发起的请求。
当请求数超过一定的值之后,就可判断为非正常的用户请求。
解决方案:
1.自行设计ip代理池,通过轮换的方式,每次请求携带不同的代理地址。
2.ADSL动态拨号他有个独有的特点,每拨一次号,就获取一个新的IP。也就是它的IP是不固定的。
四:验证码
验证码(CAPTCHA)是“CompletelyAutomatedPublicTuringtesttotellComputersandHumansApart”(全自动区分计算机和人类的图灵测试)的缩写,是一种区分用户是计算机还是人的公共全自动程序。
可以防止:恶意破解密码、刷票、论坛灌水,有效防止某个黑客对某一个特定注册用户用特定程序暴力破解方式进行不断的登陆尝试。
这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。
解决方案:
1.手动识别验证码
2.pytesseract识别简单的验证码
3.对接打码平台
4.机器学习
以上内容为大家介绍了python怎么做反爬,希望对大家有所帮助,如果想要了解更多Python相关知识,请关注我们http://www.mobiletrain.org/
最新内容
相关内容
linux命令连接网站?
linux命令连接网站?,网络,系统,信息,地址,名称,密码,设备,软件,网站,工具,Linux下必须知道的11个网络命令1、netstat -r:打印路由表。路由表保linux网络服务命令?
linux网络服务命令?,系统,地址,网络,基础,设备,信息,服务,工作,名称,标准,配置LINUX的IP命令通过配置文件配置LINUX的IP命令:vim /etc/sysconfilinux命令行连数据库?
linux命令行连数据库?,地址,服务,信息,名字,数据库,密码,网络,一致,软件,系统,linux怎么连接mongodb数据库1、在这里使用的是MongoVUE进行连接linux网络探测的命令?
linux网络探测的命令?,网络,系统,服务,检测,信息,地址,工具,电脑,命令,状态,linux下tracert命令的作用命令功能:traceroute指令让你追踪网络数linux命令行看代码?
linux命令行看代码?,代码,基础,系统,命令,数字,工作,情况,进程,程序,终端,在Linux命令终端中查看和编辑曾执行过的命令1、使用历史命令:在终端linux命令代码怎么看?
linux命令代码怎么看?,时间,系统,代码,命令,状态,工具,情况,电脑,实时,基础,linux查看系统命令是什么有的,Linux中有多个命令可以用于查看文件linux打通网络命令?
linux打通网络命令?,网络,系统,地址,信息,密码,工具,命令,工作,软件,服务,linux如何拨号上网1、方法/步骤 安装系统。可以选择图形化安装界面,linux命令参考图片?
linux命令参考图片?,系统,命令,状态,管理,网络,工作,图片,实时,软件,情况,linux返回上一级的命令是什么?怎么写?1、首先在电脑中,打开linux系统linux重启网络命令?
linux重启网络命令?,网络,标准,工作,设备,系统,名称,服务,命令,网络服务,提示,linux重启服务器命令是什么1、怎么使用linux命令重启服务器shut怎么把数据库导入navicat?
怎么把数据库导入navicat?,软件,信息,密码,管理,数据库,服务,电脑,按钮,类型,文件,Navicat是一个强大的数据库管理工具,它可以连接和管理多种数python opencv如何旋转图片?
python opencv如何旋转图片?,中心,代码,图像,图片,角度,大小,函数,例子,正数,负数,OpenCV是一款开源的计算机视觉库,它提供了各种各样的图像处比较好用的Python代码编辑器
比较好用的Python代码编辑器,代码,平台,环境,培训,教育,设计,数据,办公,人员,分析,Python是一款非常简单的编程语言,其功能使用起来都十分方便