閱讀(1k) 書簽贊(0) 我要糾錯

pyspider 快速開始

2023-02-16 16:06 更新

安裝

pip install pyspider命令行運行 pyspider瀏覽器運行腳本編輯界面WebUI http://localhost:5000/

如果你使用的是ubuntu系統(tǒng)，嘗試：

apt-get install python python-dev python-distribute python-pip \
libcurl4-openssl-dev libxml2-dev libxslt1-dev python-lxml \
libssl-dev zlib1g-dev

先去安裝二進制的包

如果需要請安裝PhantomJS http://phantomjs.org/build.html

應該注意PhantomJS只有把啟動路徑添加到系統(tǒng)環(huán)境中才能使用。

注意：pyspider命令是默認啟動所all模型，該模型是使用線程和子進程的。有關生產(chǎn)環(huán)境的，請轉(zhuǎn)到鏈接Deployment閱讀

警告：腳本編輯界面WebUI，是對外開放的。這會對你的電腦造成不必要的風險，請在內(nèi)網(wǎng)下使用它。

編寫第一個腳本

    from pyspider.libs.base_handler import *
    class Handler(BaseHandler):
        crawl_config = {
        }
    
        @every(minutes=24 * 60)
        def on_start(self):
            self.crawl('http://scrapy.org/', callback=self.index_page)
    
        @config(age=10 * 24 * 60 * 60)
        def index_page(self, response):
            for each in response.doc('a[href^="http"]').items():
                self.crawl(each.attr.href, callback=self.detail_page)
    
        @config(priority=2)
        def detail_page(self, response):
            return {
                "url": response.url,
                "title": response.doc('title').text(),
            }

def on_start(self) 是腳本的入口。當你點擊表盤上的run按鈕的時候，將會運行它。
self.crawl(url, callback=self.index_page)* 這是一個最重要的API方法。它將會添加新的任務到采集隊列。通過self.crawl的參數(shù)，指定更多的選項。
def index_page(self, response)會獲得一個所有 Response* 對象. response.doc*是一個pyquery對象（有jQuery-like API去選擇提取元素的信息）。
def detail_page(self, response)返回一個字段對象作為結(jié)果。這個結(jié)果默認會被resultdb捕捉。你也可以重寫on_result(self, result)方法，去管理采集的結(jié)果。

開始運行

保存你的爬蟲
返回腳本編輯界面首頁，找到你的項目
改變下狀態(tài)到DEBUG或者RUNNING
點擊run按鈕

以上內(nèi)容是否對您有幫助：

← pyspider 介紹

pyspider 命令行 →

寫筆記

我要補充

pyspider 快速開始

編寫第一個腳本

更多的內(nèi)容你需要知道的

開始運行