手機也能上課
1/4
Scrapy組件介紹
掌握執(zhí)行順序前,先了解scrapy的組件:
- 引擎(Engine):負責整個系統(tǒng)的數(shù)據(jù)流處理,觸發(fā)事務(wù)。
- 調(diào)度器(Scheduler):接受引擎發(fā)過來的請求,壓入隊列中,并在引擎再次請求的時候返回。
- 下載器(Downloader): 下載網(wǎng)頁內(nèi)容,并將網(wǎng)頁內(nèi)容返回給爬蟲。
- 爬蟲(Spider): 爬蟲是主要干活的,用來制定特定域名或網(wǎng)頁的解析規(guī)則。
- 項目管道(Item Pipeline): 清洗驗證存儲數(shù)據(jù),頁面被蜘蛛解析后,被發(fā)送到項目管道,并經(jīng)過幾個特定的次序處理數(shù)據(jù)。
- 下載器中間件(Downloader Middleware): 位于引擎和下載器之間,處理引擎與下載器之間的請求及響應。
- 爬蟲中間件(Spider Middleware):位于引擎和爬蟲之間,處理從引擎發(fā)送到調(diào)度的請求及響應。
如圖: