cheerio是一款非常實用的nodejs第三方包,適用于服務端(nodejs端)處理html。它有著與jquery及其相似(幾乎是一致)的api,速度飛快,使用靈活,而且不僅能夠處理html,同樣也能處理xml。
本文主要的參考文檔就是cheerio的官方文檔,基本上就是它的翻譯。
cheerio文檔的api我將其分為以下幾個方面,包括
在具體講述各個api之前,我們給出一份html代碼,這份html代碼將會是我們下面所有api操作的示例代碼。
<ul id="fruits">
<li class="apple">Apple</li>
<li class="orange">Orange</li>
<li class="pear">Pear</li>
</ul>
在使用cheerio進行各種操作之前,我們需要首先加載一份html得到一個cherrio對象。比如
var cheerio = require('cheerio');
var $ = cheerio.load('<ul>...</ul>');
因為cheerio與jquery有著極其相似的語法,所以我們一般將得到的cheerio對象命名為$
,裝作它就是jquery對象,反正基本上用法都一樣。
除了.load()
方法之外,我們還可以使用$( selector, [context], [root] )
這個api來獲得部分html節(jié)點作為cheerio對象。比如
var $ = require('cheerio');
var t1 = $('ul', '<ul id = "fruits">...</ul>');
var t2 = $('li', 'ul', '<ul id = "fruits">...</ul>');
其中第一個參數(shù)就是我們獲取的目標參數(shù)。所以t1
得到是ul
標簽封裝的cheerio對象,t2
得到是3個li
標簽封裝的cheerio對象的集合。
此外,我們在加載html時還可以設置一些配置參數(shù),比如
$ = cheerio.load('<ul id = "fruits">...</ul>', {
ignoreWhitespace: true,
xmlMode: true
});
關于cheerio的配置,一般我們用的較少,它默認的配置如下,
{
ignoreWhitespace: false, // 是否忽略空白符
xmlMode: false, // 是否是解析xml文檔
lowerCaseTags: false // 是否采用xml模式處理。這將會影響部分tag的處理。
}
關于cheerio配置的更多內(nèi)容,請參考這里和這里。
cheerio的選擇器基本上跟jquery擁有一致的用法。如果你熟悉jquery,那你將會倍感親切。
$(selector, [context], [root])
其中selector
是目標選擇器,context
是目標選擇器的上下文,root
是上下文context
的上下文。selector
和context
可以是字符串表達式、dom元素、dom元素集合、cheerio對象,而root
一般都是html文檔字符串。
一般地,我們通過cheerio操作html,都是以上面的這個api得到目標元素的cheerio對象開始,然后再進行各種操作。比如
$('.apple', '#fruits').text(); //=> Apple
$('ul .pear').attr('class'); //=> pear
$('li[class=orange]').html(); //=> <li class="orange">Orange</li>
cheerio提供了操作元素屬性的一系列方法。
.attr(name[, value])
這個方法很簡單,第二個參數(shù)是可選的。當只有第一個參數(shù)時表示獲取屬性的值,當有帶有第二個參數(shù)時,表示設置屬性的值。
$('ul').attr('id'); //=> fruits$('.apple').attr('id', 'favorite').html();//=> <li class="apple" id="favorite">Apple</li>
.removeAttr(name)
通過name
移除某一個屬性,同時返回被移除的這個元素。
$('.pear').removeAttr('class').html();
//=> <li>Pear</li>
.hasClass(className)
判斷某元素的class
中是否包含className
。
$('.pear').hasClass('pear'); //=> true
$('apple').hasClass('fruit'); //=> false
$('li').hasClass('pear'); //=> true
.addClass(className)
給某元素添加一個名為className
的樣式名。
$('.pear').addClass('fruit').html();
//=> <li class = "pear fruit">Pear</li>
$('.apple').addClass('fruit red').html();
//=> <li class = "apple fruit red">Apple</li>
.removeClass(className)
將某元素上名為className
的樣式名移除。如果不存在className
,則移除所有的樣式名。
$('.pear').removeClass('pear').html();
//=> <li class="">Pear</li>
$('.apple').addClass('red').removeClass().html();
//=> <li class="">Apple</li>
可以像使用jquery那樣使用cheerio,通過某一個元素來獲取它的父元素、子元素、兄弟元素等等。
.find(selector)
在某元素下查詢滿足選擇條件的元素。
$('#fruits').find('li').length; //=> 3
.parent()
獲取某元素的父元素。
$('.pear').parent().attr('id'); //=> fruits
.next()
獲取某元素的下一個兄弟元素。
$('.apple').next().hasClass('orange'); //=> true
.perv()
獲取某元素的上一個兄弟元素。
$('.orange').prev().hasClass('apple'); //=> true
.siblings()
獲取某元素的所有同級元素。(當然除了它自己)
$('.pear').siblings().length; //=> 2
.children([selector])
獲取某元素的孩子節(jié)點??梢詡魅?yún)?shù)在所有的孩子節(jié)點中進行篩選。
$('#fruits').children().length; //=> 3
$('#fruits').children('.pear').text(); //=> Pear
.each(function(index, element){...})
和jquery類似的each
迭代器,對每一個元素進行處理。
var fruits = [];
$('li').each(function(i, elem) {
fruits[i] = $(this).text();
});
fruits.join(', '); //=> Apple, Orange, Pear
.map(function(index, element){...})
和jquery類似的each
迭代器,對每一個元素進行處理并返回一個值。
$('li').map(function(i, el) {
// this === el
return $(this).attr('class');
}).get().join(', '); //=> apple, orange, pear
.filter(selector)
& .filter(function(index))
在cheerio對象集合中進行條件篩選。
$('li').filter('.orange').attr('class'); //=> orange
$('li').filter(function(i, el) {
// this === el
return $(this).attr('class') === 'orange';
}).attr('class') //=> orange
.first()
獲取cheerio集合中的第一個cheerio對象。
$('#fruits').children().first().text(); //=> Apple
.last()
獲取cheerio集合中的最后一個cheerio對象。
$('#fruits').children().last().text(); //=> Pear
.eq(i)
根據(jù)索引獲取cheerio集合中的某一個對象。參數(shù)可以使負數(shù),表示從尾部開始索引。
$('li').eq(0).text(); //=> Apple
$('li').eq(-1).text(); //=> Pear
cheerio提供一系列修改dom結構的方法。
.append(content, [content, ...])
將content
插入到某元素中作為該元素的最后一個子元素。
$('ul').append('<li class = "plum">Plum</li>');
$.html();
// <ul id = "fruits">
// <li class = "apple">Apple</li>
// <li class = "orange">Orange</li>
// <li class = "pear">Pear</li>
// <li class = "plum">Plum</li>
// </ul>
.prepend(content, [content, ...])
將content
插入到某元素中作為該元素的第一個子元素。
$('ul').prepend('<li class = "plum">Plum</li>');
$.html();
// <ul id = "fruits">
// <li class = "plum">Plum</li>
// <li class = "apple">Apple</li>
// <li class = "orange">Orange</li>
// <li class = "pear">Pear</li>
// </ul>
.after(content, [content, ...])
將content
插入到某元素的后面,并作為其后面第一個兄弟節(jié)點。
$('.apple').after('<li class = "plum">Plum</li>');
$.html();
// <ul id = "fruits">
// <li class = "apple">Apple</li>
// <li class = "plum">Plum</li>
// <li class = "orange">Orange</li>
// <li class = "pear">Pear</li>
// </ul>
.before(content, [content, ...])
將content
插入到某元素的前面,并作為其前面的第一個兄弟節(jié)點。
$('.apple').before('<li class = "plum">Plum</li>');
$.html();
// <ul id = "fruits">
// <li class = "plum">Plum</li>
// <li class = "apple">Apple</li>
// <li class = "orange">Orange</li>
// <li class = "pear">Pear</li>
// </ul>
.remove([selector])
移除某一個節(jié)點以及他們的孩子節(jié)點。
$('.pear').remove();
$.html();
// <ul id = "fruits">
// <li class = "apple">Apple</li>
// <li class = "orange">Orange</li>
// </ul>
.replaceWith(content)
替換匹配的節(jié)點。
var plum = $('<li class = "plum">Plum</li>');
$('.pear').replaceWith(plum);
$.html();
// <ul id = "fruits">
// <li class = "apple">Apple</li>
// <li class = "orange">Orange</li>
// <li class = "plum">Plum</li>
// </ul>
.empty()
清空一個節(jié)點,移除其所有的孩子節(jié)點。
$('ul').empty();
$.html();
// <ul id = "fruits"></ul>
.html([htmlString])
獲取某節(jié)點的html字符串。如果傳入?yún)?shù),則設置該元素的html結構。
$('.orange').html(); //=> Orange
$('#fruits').html('<li class = "mango">Mango</li>').html();
//=> <li class="mango">Mango</li>
.text([textString])
獲取某節(jié)點的純文本。
$('.orange').text();
//=> Orange
$('ul').text();
//=> Apple
// Orange
// Pear
.toArray()
將cheerio對象集合轉換成真正的數(shù)據(jù)結構。
$('li').toArray();
//=> [ {...}, {...}, {...} ]
.clone()
克隆一個節(jié)點。
var moreFruit = $('#fruits').clone();
$.root
對某一cheerio對象的根節(jié)點進行相關操作。
$.root().append('<ul id="vegetables"></ul>').html();
//=> <ul id="fruits">...</ul><ul id="vegetables"></ul>
$.contains(container, contained)
檢查container
中是否是否包含contained
元素。
$.contains('#fruits', '.pear'); // => true
更多建議: