爬蟲技術(shù)有哪些
爬蟲概念:Web爬蟲是一種Internet漫游器,可以系統(tǒng)地瀏覽萬維網(wǎng),通常用于Web索引。網(wǎng)頁搜索引擎和其他一些網(wǎng)站使用網(wǎng)頁爬蟲來更新他們的網(wǎng)頁內(nèi)容或其他網(wǎng)站網(wǎng)頁內(nèi)容的索引。
那么爬蟲有哪些技術(shù)呢,今天就為大家介紹一些爬蟲技術(shù)。
1、設(shè)置DOWNLOAD_DELAY
對(duì)Scrapy框架而言,在配置文件settings.py中設(shè)置DOWNLOAD_DELAY即可。DOWNLOAD_DELAY = 3
2、減少請(qǐng)求頻率。
3、禁止使用Cookie。
有些網(wǎng)站會(huì)通過Cookie找到爬蟲的軌跡。所以,如果沒有特殊需求,可以禁用Cookie,這樣網(wǎng)站就不能通過Cookie找到爬蟲。COOKIES_ENABLED = False
爬蟲系統(tǒng)的核心部件之一是HTML web下載器,下載web需要實(shí)現(xiàn)HTML請(qǐng)求,在python中實(shí)現(xiàn)HTML請(qǐng)求的常用庫主要有urllib庫和requests庫兩種。
以上就是爬蟲技術(shù)的介紹,我們?cè)谑褂胮ython中的一些庫時(shí),有細(xì)心的小伙伴會(huì)發(fā)現(xiàn)本篇所介紹的爬蟲技術(shù)的身影。
(推薦操作系統(tǒng):windows7系統(tǒng)、Python 3.9.1、DELL G3電腦。)