不同的爬蟲策略,對爬蟲的限制也不同
不同的網(wǎng)站有不同的反爬蟲策略,對爬蟲的限制也不同。一般可分為以下三類:

1.設置不返回網(wǎng)頁或延遲返回時間
傳統(tǒng)的反爬蟲方法是不返回網(wǎng)頁,即爬蟲將要求發(fā)送到相應的網(wǎng)站,網(wǎng)站返回404頁,表示服務器無法正常提供信息,或服務器沒有響應;網(wǎng)站也可能長時間不返回數(shù)據(jù),這意味著爬蟲被禁止。
2.返回的網(wǎng)頁不是目標網(wǎng)頁
除了不返回頁面外,還有一些爬蟲程序返回非目標頁面,也就是說,該網(wǎng)站返回虛假數(shù)據(jù),例如,當返回空白頁面或爬回多個頁面時返回同一頁面。如果你的爬蟲運行順利,你會很高興做其他事情。搜索半小時后,你會發(fā)現(xiàn)每個頁面的搜索結果都是一樣的,也就是假網(wǎng)站。
比如去哪兒網(wǎng)票價頁面,網(wǎng)上標注的價格和html源代碼不一樣。比如網(wǎng)上標注的機票價格是530元,而且html源代碼中的票價是538元。除了去哪兒網(wǎng),貓眼電影和斗魚直播也采用了這種方法,爬下來的數(shù)字和真實數(shù)字不一樣。
3.增加訪問難度
該網(wǎng)站還將通過增加獲取數(shù)據(jù)的難度來防止爬蟲。一般來說,登錄可以看到數(shù)據(jù)并設置驗證碼。為了限制爬蟲,網(wǎng)站可能會要求您登錄并輸入要訪問的驗證碼,無論您是否是真正的用戶。例如,為了限制自動搶票,12306采用了嚴格的驗證碼功能,要求用戶在8張圖片中正確選擇。
這三種情況在爬蟲界很常見。爬蟲需要根據(jù)不同的實際情況制定不同的防爬策略,以便順利工作。