在計(jì)算機(jī)中保存代碼有很多中字符集,可能是Unicode,也可能是ASCII或者gbk。不同的字符集在python2中我們可以使用unicode()函數(shù)來進(jìn)行編碼格式的轉(zhuǎn)換。但是在python3中會(huì)出現(xiàn)unicode未定義的報(bào)錯(cuò),那么怎么解決這個(gè)報(bào)錯(cuò)呢?請(qǐng)看小編是怎么解決的。
python2中的unicode()函數(shù)在python3中會(huì)報(bào)錯(cuò):
NameError: name 'unicode' is not defined
There is no such name in Python 3, no. You are trying to run Python 2 code in Python 3. In Python 3, unicode has been renamed to str.
翻譯過來就是:Python 3中沒有這樣的名字,沒有。 您正在嘗試在Python 3中運(yùn)行Python 2代碼。在Python 3中,unicode已重命名為str。
函數(shù)轉(zhuǎn)換:unicode()到 str()為:
//python2:
unicode(nn,'utf-8')
//python3:
str(nn)
補(bǔ)充:根本解決Python2中unicode編碼問題
Python2中編碼問題
因?yàn)橛?jì)算機(jī)只識(shí)別01這要的二進(jìn)制,所以在計(jì)算機(jī)存儲(chǔ)我們的文件時(shí),要使用二進(jìn)制數(shù)來表示。所以編碼就是哪個(gè)二進(jìn)制數(shù)表示哪個(gè)字符:
編碼原由系統(tǒng)編碼、文件編碼與python系統(tǒng)編碼Python字符編碼python中的字典、數(shù)組轉(zhuǎn)字符串中的中文編碼
編碼原由
ASCII編碼
最早出現(xiàn)的是ASCII碼,使用8位二進(jìn)制數(shù)組合表示128種字符。因?yàn)锳SCII編碼是美國人發(fā)明的,當(dāng)初沒考慮給別的國家用,所以,它僅僅表示了所有美式英語的語言字符。但是沒有使用完。
ISO 8859-1/windows-1252
128位字符滿足了美國人的需求,但是隨之歐洲人加入互聯(lián)網(wǎng),為了滿足歐洲人的需求,8位二進(jìn)制后面還有128位。這一段編碼我們稱之?dāng)U展字符集,即ISO 8859-1編碼標(biāo)準(zhǔn),后來歐洲的需求變更,即規(guī)定了windows-1252代替了ISO 8859-1
GB2312
然后當(dāng)我國加入后,8位二進(jìn)制(即一個(gè)字節(jié))用完了,于是我們保留ASCII編碼即前128位,后面的全部刪除。因?yàn)槲覈谜Z言博大精深,所以需要2個(gè)字節(jié),即16位才能滿足我們得需求,所以當(dāng)計(jì)算機(jī)遇到大于127的字節(jié)時(shí),就一次性讀取兩個(gè)字節(jié),將他解碼成漢字。即GB2312編碼
GBK
相當(dāng)于GB2312的改進(jìn)版,增添了中文字符。但還是2個(gè)字節(jié)表示漢字
GB18030
為了滿足日韓和我國的少數(shù)民族的需求,對(duì)GBK的改進(jìn),使用變長編碼,要么使用兩個(gè)字節(jié),要么使用四個(gè)字節(jié)。
Unicode
雖然每種編碼都兼容ASCII編碼,但是各個(gè)國家是不兼容的。于是出現(xiàn)了Unicode,它將所有的編碼進(jìn)行了統(tǒng)一。它不能算是一種具體的編碼標(biāo)準(zhǔn),只是將全世界的字符進(jìn)行了編號(hào),并沒有指定他們具體在計(jì)算機(jī)種以什么樣的形式存儲(chǔ)。
它的具體實(shí)現(xiàn)有UTF-8,UTF-16,UTF-32等。
系統(tǒng)編碼、文件編碼與python系統(tǒng)編碼
在linux中獲取系統(tǒng)編碼結(jié)果:
Windows系統(tǒng)的編碼,代碼頁936表示GBK編碼
可以看到linux系統(tǒng)默認(rèn)使用UTF-8編碼,windows默認(rèn)使用GBK編碼。Linux環(huán)境下,文件默認(rèn)使用UTF-8編碼。當(dāng)然你也可以指定文件編碼方式。
Python解釋器內(nèi)部默認(rèn)使用的ASCII編碼方式去解讀python源文件。
所以當(dāng)文件內(nèi)存在非ASCII字符時(shí),python解釋器無 法識(shí)別,就會(huì)出現(xiàn)編碼錯(cuò)誤。
So,這個(gè)時(shí)候需要告訴python解釋器用utf-8去解讀python源文件
Python字符編碼
Python2中有兩類字符串,分別是str與unicode。這兩類字符串都派生自抽象類basestring。 Str即普通字符串類型
在字符串前加上u即unicode編碼
在代碼中通常用到的是unicode,文件保存的是utf-8編碼。Unicode編碼是固定2個(gè)字節(jié)代表一個(gè)字符。Utf-8是對(duì)英文只用一個(gè)字節(jié),對(duì)中文是3個(gè)字節(jié)。所以u(píng)nicode運(yùn)行效率高,utf-8運(yùn)行效率相比要低,但是空間存儲(chǔ)要小。
Python中str與unicode轉(zhuǎn)換
Unicode轉(zhuǎn)str
str轉(zhuǎn)unicode
其函數(shù)中參數(shù)UTF-8是,以u(píng)tf-8編碼對(duì)unicode對(duì)象解碼,或編碼。
python中的字典、數(shù)組轉(zhuǎn)字符串中的中文編碼
當(dāng)字典中的中文字符是unicode類型時(shí)
decode(“unicode-escape”)相當(dāng)是反向編碼.然后再進(jìn)行utf-8編碼即可
當(dāng)字典中的字符串是string類型時(shí)
name = {"name": "中國"}
name = str(name)
print name.decode("string-escape")
當(dāng)數(shù)組進(jìn)行字符串化時(shí)
最后總結(jié)
不管是數(shù)組還是字典,在進(jìn)行字符串轉(zhuǎn)換是,即是又一次編碼,所以,對(duì)于本身還有的中文字符串又一次編碼,所以要進(jìn)行一次反編碼,才能看到原有的編碼。
以上就是怎么解決python2中unicode()函數(shù)在python3中報(bào)錯(cuò)的方法,希望能給大家一個(gè)參考,也希望大家多多支持W3Cschool。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教。