我們在進行python爬蟲開發(fā)的時候有時候會出現(xiàn)一些小錯誤,然而這個問題我們完全可以使用python的異常拋出機制來進行。另外python爬取到數(shù)據(jù)后需要對數(shù)據(jù)進行清洗,簡單的講,就是將一些標(biāo)簽進行過濾。今天的文章我們分為上下兩個部分,上半部分我們介紹python異常捕捉,下半部分我們介紹python標(biāo)簽過濾,小伙伴們可以按需進行學(xué)習(xí)。
增加異常捕獲,更容易現(xiàn)問題的解決方向
import ssl
import urllib.request
from bs4 import BeautifulSoup
from urllib.error import HTTPError, URLError
def get_data(url):
headers = {"user-agent":
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.93 Safari/537.36"
}
ssl._create_default_https_context = ssl._create_unverified_context
"""
urlopen處增加兩個異常捕獲:
1、如果頁面出現(xiàn)錯誤或者服務(wù)器不存在時,會拋HTTP錯誤代碼
2、如果url寫錯了或者是鏈接打不開時,會拋URLError錯誤
"""
try:
url_obj = urllib.request.Request(url, headers=headers)
response = urllib.request.urlopen(url_obj)
html = response.read().decode('utf8')
except (HTTPError, URLError)as e:
raise e
"""
BeautifulSoup處增加異常捕獲是因為BeautifulSoup對象中有時候標(biāo)簽實際不存在時,會返回None值;
因為不知道,所以調(diào)用了就會導(dǎo)致拋出AttributeError: 'NoneType' object has no xxxxxxx。
"""
try:
bs = BeautifulSoup(html, "html.parser")
results = bs.body
except AttributeError as e:
return None
return results
if __name__ == '__main__':
print(get_data("https://movie.douban.com/chart"))
解析html,更好的實現(xiàn)數(shù)據(jù)展示效果
- get_text():獲取文本信息
# 此處代碼同上面打開url代碼一致,故此處省略......
html = response.read().decode('utf8')
bs = BeautifulSoup(html, "html.parser")
data = bs.find('span', {'class': 'pl'})
print(f'電影評價數(shù):{data}')
print(f'電影評價數(shù):{data.get_text()}')
運行后的結(jié)果顯示如下:
電影評價數(shù):<span class="pl">(38054人評價)</span>
電影評價數(shù):(38054人評價)
- find() 方法是過濾HTML標(biāo)簽,查找需要的單個標(biāo)簽
實際find方法封裝是調(diào)用了正則find_all方法,把find_all中的limt參數(shù)傳1,獲取單個標(biāo)簽
1.name:可直接理解為標(biāo)簽元素
2.attrs:字典格式,放屬性和屬性值 {"class": "indent"}
3.recursive:遞歸參數(shù),布爾值,為真時遞歸查詢子標(biāo)簽
4.text:標(biāo)簽的文本內(nèi)容匹配 , 是標(biāo)簽的文本,標(biāo)簽的文本
- find_all() 方法是過濾HTML標(biāo)簽,查找需要的標(biāo)簽組
使用方法適合find一樣的,無非就是多了個limit參數(shù)(篩選數(shù)據(jù))
必須注意的小知識點:
# 下面兩種寫法,實際是一樣的功能,都是查詢id為text的屬性值
bs.find_all(id="text")
bs.find_all(' ', {"id": "text"})
# 如果是class的就不能class="x x x"了,因為class是python中類的關(guān)鍵字
bs.find_all(class_="text")
bs.find_all(' ', {"class": "text"})
到此這篇python異常捕獲和標(biāo)簽過濾的文章就介紹到這了,更多python學(xué)習(xí)內(nèi)容請搜索W3Cschool以前的文章或繼續(xù)瀏覽下面的相關(guān)文章。