如果你想學(xué)習(xí) python,那么你一定聽過“爬蟲”。那么這篇文章 w3cschool 小編就來為你介紹一下什么是 python 爬蟲。
概述
Python 爬蟲主要是指網(wǎng)絡(luò)數(shù)據(jù)的抓取和處理。相比于其他編程語言,python 內(nèi)含有大量的內(nèi)置包,非常適合用來開發(fā)網(wǎng)絡(luò)爬蟲,可以輕松實(shí)現(xiàn)爬蟲的功能。
Python爬蟲的架構(gòu)組成
URL 管理器:用來管理 URL 集合,將待爬取的 URL 傳送給網(wǎng)頁下載器;
網(wǎng)頁下載器:爬取相應(yīng)的網(wǎng)頁,并將它存儲成字符串,再傳送給網(wǎng)頁解析器;
網(wǎng)頁解析器:分析出網(wǎng)頁中有價(jià)值的數(shù)據(jù)并存儲,同時(shí)補(bǔ)充 URL 到 URL 管理器。
爬蟲工作原理
通過 URL 管理器判斷是否有等待爬取的 URL,如果有的話通過調(diào)度器傳遞給下載器,下載 URL 內(nèi)容,之后通過調(diào)度器傳送給解析器,解析 URL 的內(nèi)容,并將有價(jià)值的數(shù)據(jù)和新的 URL 列表通過調(diào)度器傳送給應(yīng)用程序,并輸出數(shù)據(jù)的過程。
以上就是問題“什么是python爬蟲?”的全部內(nèi)容。更多 python 爬蟲學(xué)習(xí)請關(guān)注 python 編程獅。
推薦課程:零基礎(chǔ)學(xué)爬蟲,python3爬蟲入門與實(shí)踐