1.错误次数太多,用户连接超时(不定期出现)

原因:太多次重复连接,导致网页缓慢,不能再指定时间(5秒)内连接上

解决:将代理ip中间件换成新框架的

2.代理池有卡顿

3.频繁请求ip,无论成功与否

4.爬取速度慢:

原因:不停在爬取重复页面,在爬取帖子详细内容时,重复请求该页面

解决:目前是注释掉那句代码

5.数据量不对:

原因:目前爱卡更改了对发布帖子排序的操作,增加了cookie(oderby参数)来控制是否排序

以前爬下来的是按回复排序

解决:增加cookie ‘oderby’:1,

6.被爱卡禁止访问:

原因:爱卡增加了cookie验证,来做反爬

解决:增加所需cookie,具体如下:

‘_appuv_newcar’:‘f0fafccbbed05fa57d0b404f1be0d158’,

‘_fwck_newcar’:‘c28879b9110138c43ca7ef25c7e7f52b’,

‘_appuv_www’:‘37d34d06ad43bde460744eedc6a82c98’,

‘_fwck_www’:‘b15320548fb602fafa7e384f4c0f568a’,

7.无法进行翻页:

原因:获取下一页数字的代码错误,例:

Href:forumdisplay.php?fid=741&orderby=dateline&page=4

原代码:按 “=” 分开取第三个,则会取出 dateline&page , 此为错误

解决: 按 “page=” 切分, 取第二个

8.用户禁言论坛修改

能爬取禁言论坛,修改了xcar.py文件