博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
裁判文书网采集说明
阅读量:6149 次
发布时间:2019-06-21

本文共 285 字,大约阅读时间需要 1 分钟。

 

 

该网站对于采集器存在以下限制:

一、验证码限制

在访问频率较高的情况下会出现访问页面需要输入验证码,如下图:

 

 

 

此验证码的生成方式为动态验证码,即每次访问一次验证码生成链接,生成的验证码都不一样,验证码动态生成链接为:

在采集器中如果要进行验证码的识别,需要先下载该验证码的图片,下载需要访问一次该验证码链接,此时的验证码与实际的验证码图片已经不是同一张了,即便识别成功,也会报验证码填入错误。

二、封IP限制

我们人工模拟采集器采集页面,同一个IP,当访问频率达到一定程度时,该网站会直接拒绝访问。如下图:

 

 

   总结:若在采集中出现以上两种情况,将无法继续爬取该网站的内容。

转载地址:http://eymya.baihongyu.com/

你可能感兴趣的文章
Windows8/Silverlight/WPF/WP7/HTML5周学习导读(1月7日-1月14日)
查看>>
关于C#导出 文本文件
查看>>
使用native 查询时,对特殊字符的处理。
查看>>
maclean liu的oracle学习经历--长篇连载
查看>>
ECSHOP调用指定分类的文章列表
查看>>
分享:动态库的链接和链接选项-L,-rpath-link,-rpath
查看>>
Javascript一些小细节
查看>>
禁用ViewState
查看>>
Android图片压缩(质量压缩和尺寸压缩)
查看>>
nilfs (a continuent snapshot file system) used with PostgreSQL
查看>>
【SICP练习】150 练习4.6
查看>>
HTTP缓存应用
查看>>
KubeEdge向左,K3S向右
查看>>
DTCC2013:基于网络监听数据库安全审计
查看>>
CCNA考试要点大搜集(二)
查看>>
ajax查询数据库时数据无法更新的问题
查看>>
Kickstart 无人职守安装,终于搞定了。
查看>>
linux开源万岁
查看>>
linux/CentOS6忘记root密码解决办法
查看>>
25个常用的Linux iptables规则
查看>>