什么是python爬蟲(chóng)？

猿友 2021-04-10 17:55:54 瀏覽數(shù) (3058)

反饋

如果你想學(xué)習(xí) python，那么你一定聽(tīng)過(guò)“爬蟲(chóng)”。那么這篇文章 w3cschool 小編就來(lái)為你介紹一下什么是 python 爬蟲(chóng)。

概述

Python 爬蟲(chóng)主要是指網(wǎng)絡(luò)數(shù)據(jù)的抓取和處理。相比于其他編程語(yǔ)言，python 內(nèi)含有大量的內(nèi)置包，非常適合用來(lái)開(kāi)發(fā)網(wǎng)絡(luò)爬蟲(chóng)，可以輕松實(shí)現(xiàn)爬蟲(chóng)的功能。

Python爬蟲(chóng)的架構(gòu)組成

URL 管理器：用來(lái)管理 URL 集合，將待爬取的 URL 傳送給網(wǎng)頁(yè)下載器；

網(wǎng)頁(yè)下載器：爬取相應(yīng)的網(wǎng)頁(yè)，并將它存儲(chǔ)成字符串，再傳送給網(wǎng)頁(yè)解析器；

網(wǎng)頁(yè)解析器：分析出網(wǎng)頁(yè)中有價(jià)值的數(shù)據(jù)并存儲(chǔ)，同時(shí)補(bǔ)充 URL 到 URL 管理器。

爬蟲(chóng)工作原理

通過(guò) URL 管理器判斷是否有等待爬取的 URL，如果有的話(huà)通過(guò)調(diào)度器傳遞給下載器，下載 URL 內(nèi)容，之后通過(guò)調(diào)度器傳送給解析器，解析 URL 的內(nèi)容，并將有價(jià)值的數(shù)據(jù)和新的 URL 列表通過(guò)調(diào)度器傳送給應(yīng)用程序，并輸出數(shù)據(jù)的過(guò)程。

以上就是問(wèn)題“什么是python爬蟲(chóng)？”的全部?jī)?nèi)容。更多 python 爬蟲(chóng)學(xué)習(xí)請(qǐng)關(guān)注 python 編程獅。

HTML

0 人點(diǎn)贊

什么是python爬蟲(chóng)？

概述

Python爬蟲(chóng)的架構(gòu)組成

爬蟲(chóng)工作原理

什么是python爬蟲(chóng)？