在日常開發(fā)中,從一個(gè)字符串中提取其中的一些內(nèi)容是很常見的業(yè)務(wù)需求之一。那么如何使用python提取字符串中的中英文呢?比較常見的做法是使用正則判斷來進(jìn)行數(shù)據(jù)提取,接下來我們就來看看怎么用正則判斷匹配我們需要的字符串并篩選出來吧。
前言
提取中英文是我們?cè)谧鰯?shù)據(jù)處理時(shí)候經(jīng)常使用的,最高效的做法就是通過正則判斷了,下面是我寫的筆記,希望對(duì)你有用
一. re中的sub函數(shù)
使用Python 的re模塊,re模塊提供了re.sub用于替換字符串中的匹配項(xiàng)。
re.sub(pattern, repl, string, count=0)
參數(shù)說明:
- pattern:正則重的模式字符串
- repl:被拿來替換的字符串
- string:要被用于替換的原始字符串
- count:模式匹配后替換的最大次數(shù),省略則默認(rèn)為0,表示替換所有的匹配
1.1 提取中文
可以這樣想:我們可以通過將不是中文的字符替換為空不就可以了
例如
import re
str = "重出江湖hello的地H方。。的,world"
str = re.sub("[A-Za-z0-9,。]", "", str)
print(str)
輸出:神的孩子在唱歌
1.2 提取英文
import re
str = "重123出江湖hello的地H方。。的,world"
str = re.sub("[u4e00-u9fa5