裁判文书网采集说明-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

裁判文书网采集说明

阅读量：6149 次

发布时间：2019-06-21

本文共 285 字，大约阅读时间需要 1 分钟。

该网站对于采集器存在以下限制：

一、验证码限制

在访问频率较高的情况下会出现访问页面需要输入验证码，如下图：

此验证码的生成方式为动态验证码，即每次访问一次验证码生成链接，生成的验证码都不一样，验证码动态生成链接为：

在采集器中如果要进行验证码的识别，需要先下载该验证码的图片，下载需要访问一次该验证码链接，此时的验证码与实际的验证码图片已经不是同一张了，即便识别成功，也会报验证码填入错误。

二、封IP限制

我们人工模拟采集器采集页面，同一个IP，当访问频率达到一定程度时，该网站会直接拒绝访问。如下图：

总结：若在采集中出现以上两种情况，将无法继续爬取该网站的内容。

转载地址：http://eymya.baihongyu.com/

你可能感兴趣的文章

Windows8/Silverlight/WPF/WP7/HTML5周学习导读(1月7日-1月14日)

关于C#导出文本文件

使用native 查询时，对特殊字符的处理。

maclean liu的oracle学习经历--长篇连载

ECSHOP调用指定分类的文章列表

分享：动态库的链接和链接选项-L，-rpath-link，-rpath

Javascript一些小细节

禁用ViewState

Android图片压缩（质量压缩和尺寸压缩）

nilfs (a continuent snapshot file system) used with PostgreSQL

【SICP练习】150 练习4.6

HTTP缓存应用

KubeEdge向左，K3S向右

DTCC2013：基于网络监听数据库安全审计

CCNA考试要点大搜集（二）

ajax查询数据库时数据无法更新的问题

Kickstart 无人职守安装，终于搞定了。

linux开源万岁

linux/CentOS6忘记root密码解决办法

25个常用的Linux iptables规则

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-01-06 04:17:12 当前IP: 3.145.85.123 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我