App下載

怎么解決python2中unicode()函數(shù)在python3中報(bào)錯(cuò)的問(wèn)題

淺淺嫣然笑 2021-08-18 14:39:19 瀏覽數(shù) (4574)
反饋

在計(jì)算機(jī)中保存代碼有很多中字符集,可能是Unicode,也可能是ASCII或者gbk。不同的字符集在python2中我們可以使用unicode()函數(shù)來(lái)進(jìn)行編碼格式的轉(zhuǎn)換。但是在python3中會(huì)出現(xiàn)unicode未定義的報(bào)錯(cuò),那么怎么解決這個(gè)報(bào)錯(cuò)呢?請(qǐng)看小編是怎么解決的。

python2中的unicode()函數(shù)在python3中會(huì)報(bào)錯(cuò):

NameError: name 'unicode' is not defined

There is no such name in Python 3, no. You are trying to run Python 2 code in Python 3. In Python 3, unicode has been renamed to str.

翻譯過(guò)來(lái)就是:Python 3中沒(méi)有這樣的名字,沒(méi)有。 您正在嘗試在Python 3中運(yùn)行Python 2代碼。在Python 3中,unicode已重命名為str。

函數(shù)轉(zhuǎn)換:unicode()到 str()為:

//python2:
unicode(nn,'utf-8')
//python3:
str(nn)

補(bǔ)充:根本解決Python2中unicode編碼問(wèn)題

Python2中編碼問(wèn)題

因?yàn)橛?jì)算機(jī)只識(shí)別01這要的二進(jìn)制,所以在計(jì)算機(jī)存儲(chǔ)我們的文件時(shí),要使用二進(jìn)制數(shù)來(lái)表示。所以編碼就是哪個(gè)二進(jìn)制數(shù)表示哪個(gè)字符:

編碼原由系統(tǒng)編碼、文件編碼與python系統(tǒng)編碼Python字符編碼python中的字典、數(shù)組轉(zhuǎn)字符串中的中文編碼

編碼原由

ASCII編碼

最早出現(xiàn)的是ASCII碼,使用8位二進(jìn)制數(shù)組合表示128種字符。因?yàn)锳SCII編碼是美國(guó)人發(fā)明的,當(dāng)初沒(méi)考慮給別的國(guó)家用,所以,它僅僅表示了所有美式英語(yǔ)的語(yǔ)言字符。但是沒(méi)有使用完。

ISO 8859-1/windows-1252

128位字符滿足了美國(guó)人的需求,但是隨之歐洲人加入互聯(lián)網(wǎng),為了滿足歐洲人的需求,8位二進(jìn)制后面還有128位。這一段編碼我們稱之?dāng)U展字符集,即ISO 8859-1編碼標(biāo)準(zhǔn),后來(lái)歐洲的需求變更,即規(guī)定了windows-1252代替了ISO 8859-1

GB2312

然后當(dāng)我國(guó)加入后,8位二進(jìn)制(即一個(gè)字節(jié))用完了,于是我們保留ASCII編碼即前128位,后面的全部刪除。因?yàn)槲覈?guó)得語(yǔ)言博大精深,所以需要2個(gè)字節(jié),即16位才能滿足我們得需求,所以當(dāng)計(jì)算機(jī)遇到大于127的字節(jié)時(shí),就一次性讀取兩個(gè)字節(jié),將他解碼成漢字。即GB2312編碼

GBK

相當(dāng)于GB2312的改進(jìn)版,增添了中文字符。但還是2個(gè)字節(jié)表示漢字

GB18030

為了滿足日韓和我國(guó)的少數(shù)民族的需求,對(duì)GBK的改進(jìn),使用變長(zhǎng)編碼,要么使用兩個(gè)字節(jié),要么使用四個(gè)字節(jié)。

Unicode

雖然每種編碼都兼容ASCII編碼,但是各個(gè)國(guó)家是不兼容的。于是出現(xiàn)了Unicode,它將所有的編碼進(jìn)行了統(tǒng)一。它不能算是一種具體的編碼標(biāo)準(zhǔn),只是將全世界的字符進(jìn)行了編號(hào),并沒(méi)有指定他們具體在計(jì)算機(jī)種以什么樣的形式存儲(chǔ)。

它的具體實(shí)現(xiàn)有UTF-8,UTF-16,UTF-32等。

系統(tǒng)編碼、文件編碼與python系統(tǒng)編碼

在linux中獲取系統(tǒng)編碼結(jié)果:

這里寫圖片描述

Windows系統(tǒng)的編碼,代碼頁(yè)936表示GBK編碼

這里寫圖片描述

可以看到linux系統(tǒng)默認(rèn)使用UTF-8編碼,windows默認(rèn)使用GBK編碼。Linux環(huán)境下,文件默認(rèn)使用UTF-8編碼。當(dāng)然你也可以指定文件編碼方式。

Python解釋器內(nèi)部默認(rèn)使用的ASCII編碼方式去解讀python源文件。

這里寫圖片描述

所以當(dāng)文件內(nèi)存在非ASCII字符時(shí),python解釋器無(wú) 法識(shí)別,就會(huì)出現(xiàn)編碼錯(cuò)誤。

這里寫圖片描述

So,這個(gè)時(shí)候需要告訴python解釋器用utf-8去解讀python源文件

這里寫圖片描述

這里寫圖片描述

Python字符編碼

Python2中有兩類字符串,分別是str與unicode。這兩類字符串都派生自抽象類basestring。 Str即普通字符串類型

這里寫圖片描述

在字符串前加上u即unicode編碼

這里寫圖片描述

在代碼中通常用到的是unicode,文件保存的是utf-8編碼。Unicode編碼是固定2個(gè)字節(jié)代表一個(gè)字符。Utf-8是對(duì)英文只用一個(gè)字節(jié),對(duì)中文是3個(gè)字節(jié)。所以u(píng)nicode運(yùn)行效率高,utf-8運(yùn)行效率相比要低,但是空間存儲(chǔ)要小。

這里寫圖片描述

Python中str與unicode轉(zhuǎn)換

Unicode轉(zhuǎn)str

這里寫圖片描述

str轉(zhuǎn)unicode

這里寫圖片描述

其函數(shù)中參數(shù)UTF-8是,以u(píng)tf-8編碼對(duì)unicode對(duì)象解碼,或編碼。

python中的字典、數(shù)組轉(zhuǎn)字符串中的中文編碼

當(dāng)字典中的中文字符是unicode類型時(shí)

這里寫圖片描述

這里寫圖片描述

這里寫圖片描述

這里寫圖片描述

decode(“unicode-escape”)相當(dāng)是反向編碼.然后再進(jìn)行utf-8編碼即可

當(dāng)字典中的字符串是string類型時(shí)

name = {"name": "中國(guó)"}
name = str(name)
print name.decode("string-escape")

這里寫圖片描述

當(dāng)數(shù)組進(jìn)行字符串化時(shí)

這里寫圖片描述

最后總結(jié)

不管是數(shù)組還是字典,在進(jìn)行字符串轉(zhuǎn)換是,即是又一次編碼,所以,對(duì)于本身還有的中文字符串又一次編碼,所以要進(jìn)行一次反編碼,才能看到原有的編碼。

以上就是怎么解決python2中unicode()函數(shù)在python3中報(bào)錯(cuò)的方法,希望能給大家一個(gè)參考,也希望大家多多支持W3Cschool。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教。


0 人點(diǎn)贊