爬蟲通常指的是網(wǎng)絡(luò)爬蟲,就是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。因為 python 的腳本特性,python 易于配置,對字符的處理也非常靈活,加上 python 有豐富的網(wǎng)絡(luò)抓取模塊,所以兩者經(jīng)常聯(lián)系在一起。
在進入文章之前,我們首先需要知道什么是爬蟲。爬蟲,即網(wǎng)絡(luò)爬蟲,大家可以理解為在網(wǎng)絡(luò)上爬行的一只蜘蛛,互聯(lián)網(wǎng)就比作一張大網(wǎng),而爬蟲便是在這張網(wǎng)上爬來爬去的蜘蛛,如果它遇到自己的獵物(所需要的資源),那么它就會將其抓取下來。比如它在抓取一個網(wǎng)頁,在這個網(wǎng)中他發(fā)現(xiàn)了一條道路,其實就是指向網(wǎng)頁的超鏈接,那么它就可以爬到另一張網(wǎng)上來獲取數(shù)據(jù)。不容易理解的話其實可以通過下面的圖片進行理解:
因為 python 的腳本特性,python 易于配置,對字符的處理也非常靈活,加上 python 有豐富的網(wǎng)絡(luò)抓取模塊,所以兩者經(jīng)常聯(lián)系在一起。Python 爬蟲開發(fā)工程師,從網(wǎng)站某一個頁面(通常是首頁)開始,讀取網(wǎng)頁的內(nèi)容,找到在網(wǎng)頁中的其它鏈接地址,然后通過這些鏈接地址尋找下一個網(wǎng)頁,這樣一直循環(huán)下去,直到把這個網(wǎng)站所有的網(wǎng)頁都抓取完為止。如果把整個互聯(lián)網(wǎng)當(dāng)成一個網(wǎng)站,那么網(wǎng)絡(luò)蜘蛛就可以用這個原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁都抓取下來。
作為一門編程語言而言,Python 是純粹的自由軟件,以簡潔清晰的語法和強制使用空白符進行語句縮進的特點從而深受程序員的喜愛。舉一個例子:完成一個任務(wù)的話,c 語言一共要寫1000行代碼,java 要寫100行,而 python 則只需要寫20行的代碼。使用 python來完成編程任務(wù)的話編寫的代碼量更少,代碼簡潔簡短可讀性更強,一個團隊進行開發(fā)的時候讀別人的代碼會更快,開發(fā)效率會更高,使工作變得更加高效。
這是一門非常適合開發(fā)網(wǎng)絡(luò)爬蟲的編程語言,而且相比于其他靜態(tài)編程語言,Python 抓取網(wǎng)頁文檔的接口更簡潔;相比于其他動態(tài)腳本語言,Python 的 urllib2 包提供了較為完整的訪問網(wǎng)頁文檔的 API。此外,python 中有優(yōu)秀的第三方包可以高效實現(xiàn)網(wǎng)頁抓取,并可用極短的代碼完成網(wǎng)頁的標(biāo)簽過濾功能。
python爬蟲的構(gòu)架組成如下圖:
1、URL 管理器:管理待爬取的 url 集合和已爬取的 url 集合,傳送待爬取的 url 給網(wǎng)頁下載器;
2、網(wǎng)頁下載器:爬取url對應(yīng)的網(wǎng)頁,存儲成字符串,傳送給網(wǎng)頁解析器;
3、網(wǎng)頁解析器:解析出有價值的數(shù)據(jù),存儲下來,同時補充 url 到 URL 管理器。
而 python 的工作流程則如下圖:
(Python 爬蟲通過 URL 管理器,判斷是否有待爬 URL,如果有待爬 URL,通過調(diào)度器進行傳遞給下載器,下載 URL 內(nèi)容,并通過調(diào)度器傳送給解析器,解析URL內(nèi)容,并將價值數(shù)據(jù)和新 URL 列表通過調(diào)度器傳遞給應(yīng)用程序,并輸出價值信息的過程。)
Python 是一門非常適合開發(fā)網(wǎng)絡(luò)爬蟲的編程語言,提供了如 urllib、re、json、pyquery 等模塊,同時又有很多成型框架,如 Scrapy 框架、PySpider 爬蟲系統(tǒng)等,本身又是十分的簡潔方便所以是網(wǎng)絡(luò)爬蟲首選編程語言!