很多小伙伴在學(xué)習(xí)機(jī)器學(xué)習(xí)的時(shí)候會(huì)苦惱到底用什么進(jìn)行學(xué)習(xí)。在看了大佬的介紹后可能會(huì)使用Keras或者pytorch直接進(jìn)行學(xué)習(xí),但實(shí)際上有優(yōu)秀的機(jī)器學(xué)習(xí)工具包。沒(méi)錯(cuò),小編接下來(lái)要介紹的SKlearm就是一款基于python語(yǔ)言的機(jī)器學(xué)習(xí)工具包。今天我們就來(lái)講講SKlearm的安裝與使用,希望小伙伴們能喜歡上這款工具包。
1、SKlearn 是什么
Sklearn(全稱(chēng) SciKit-Learn),是基于 Python 語(yǔ)言的機(jī)器學(xué)習(xí)工具包。
Sklearn 主要用Python編寫(xiě),建立在 Numpy、Scipy、Pandas 和 Matplotlib 的基礎(chǔ)上,也用 Cython編寫(xiě)了一些核心算法來(lái)提高性能。
Sklearn 包括六大功能模塊:
- 分類(lèi)(Classification):識(shí)別樣本屬于哪個(gè)類(lèi)別,常用算法有 SVM(支持向量機(jī))、nearest neighbors(最近鄰)、random forest(隨機(jī)森林)
- 回歸(Regression):預(yù)測(cè)與對(duì)象相關(guān)聯(lián)的連續(xù)值屬性,常用算法有 SVR(支持向量機(jī))、 ridge regression(嶺回歸)、Lasso
- 聚類(lèi)(Clustering):對(duì)樣本進(jìn)行無(wú)監(jiān)督的自動(dòng)分類(lèi),常用算法有 k-Means(k均值)、spectral clustering(特征聚類(lèi))、mean-shift(均值漂移)
- 數(shù)據(jù)降維(Dimensionality reduction):減少相關(guān)變量維數(shù),常用算法有 PCA(主成分分析)、feature selection(特征選擇)、non-negative matrix factorization(非負(fù)矩陣分解)
- 模型選擇(Model Selection):比較,驗(yàn)證,選擇參數(shù)和模型,常用模塊有 grid search(網(wǎng)格搜索)、cross validation(交叉驗(yàn)證)、 metrics(度量)
- 數(shù)據(jù)處理 (Preprocessing):特征提取和歸一化,常用模塊有 preprocessing(預(yù)處理),feature extraction(特征提?。?/li>
- 這六個(gè)功能模塊涉及 4類(lèi)算法,分類(lèi)、回歸 屬于監(jiān)督學(xué)習(xí),聚類(lèi)屬于非監(jiān)督學(xué)習(xí)。
官網(wǎng)地址:https://scikit-learn.org/
官方文檔中文版: https://www.scikitlearn.com.cn/
內(nèi)置數(shù)據(jù)集:https://scikit-learn.org/stable/datasets.html
2、SKlearn 的安裝
Sklearn 的安裝要求:Python 3.5 以上版本,需要安裝 NumPy、SciPy、Pandas 工具包的支持,部分內(nèi)容需要使用 Matplotlib、joblib 工具包。
pip 安裝命令:
pip3 install -U scikit-learn
pip3 install -U scikit-learn -i https://pypi.douban.com/simple
注意 Sklearn 建議安裝 Numpy+mkl,可以在網(wǎng)址http://www.lfd.uci.edu/~gohlke/pythonlibs/ 找到你需要的numpy+mkl版本,下載后 pip3安裝:
pip install numpy-1.11.1+mkl-cp27-cp27m-win_amd64.whl
3、SKlearn 內(nèi)置數(shù)據(jù)集
Sklearn 內(nèi)置了一些標(biāo)準(zhǔn)數(shù)據(jù)集可以用于練習(xí)和測(cè)試,都是經(jīng)常被引用的經(jīng)典問(wèn)題,數(shù)據(jù)網(wǎng)址:https://scikit-learn.org/stable/datasets.html
Sklearn 標(biāo)準(zhǔn)數(shù)據(jù)集主要包括:
測(cè)試問(wèn)題數(shù)據(jù)集
- 波士頓房?jī)r(jià):Boston house prices dataset
- 鳶尾花問(wèn)題:Iris plants dataset
- 糖尿病數(shù)據(jù):Diabetes dataset
- 手寫(xiě)數(shù)字的識(shí)別:Optical recognition of handwritten digits dataset
- 體能訓(xùn)練:Linnerrud dataset
- 葡萄酒鑒別:Wine recognition dataset
- 威斯康星州癌癥診斷:reast cancer wisconsin (diagnostic) dataset
實(shí)際問(wèn)題數(shù)據(jù)集
- 人臉數(shù)據(jù):The Olivetti faces dataset
- 20個(gè)新聞文本數(shù)據(jù):The 20 newsgroups text dataset
- 標(biāo)記的人臉數(shù)據(jù):The Labeled Faces in the Wild face recognition dataset
- 森林覆蓋類(lèi)型:Forest covertypes
- 路透社新聞數(shù)據(jù):RCV1 dataset
- 網(wǎng)絡(luò)入侵檢測(cè)數(shù)據(jù):Kddcup 99 dataset
- 加州住房數(shù)據(jù):California Housing dataset
4、Sklearn 數(shù)模筆記的計(jì)劃
粗略看看 Sklearn 的文檔,是一個(gè)功能強(qiáng)大和豐富的機(jī)器學(xué)習(xí)庫(kù),遠(yuǎn)遠(yuǎn)超出了數(shù)學(xué)建模學(xué)習(xí)的范圍。
基于數(shù)模教學(xué)的目的,本系列主要對(duì)應(yīng)數(shù)模學(xué)習(xí)中的分類(lèi)、聚類(lèi)、降維問(wèn)題,并不打算全面講解 Sklearn 的各種算法,而是以典型問(wèn)題為例來(lái)介紹原理簡(jiǎn)單、使用廣泛的基本方法,以便新手入門(mén)。
以上就是就是SKlearm的安裝與使用的全部?jī)?nèi)容了,希望能對(duì)小伙伴們參數(shù)幫助,也希望各位小伙伴多多關(guān)注支持W3Cschool!