App下載

如何使用python提取字符串的中英文(正則判斷)

辦公任 2021-08-16 14:06:28 瀏覽數(shù) (8030)
反饋

在日常開發(fā)中,從一個字符串中提取其中的一些內容是很常見的業(yè)務需求之一。那么如何使用python提取字符串中的中英文呢?比較常見的做法是使用正則判斷來進行數(shù)據(jù)提取,接下來我們就來看看怎么用正則判斷匹配我們需要的字符串并篩選出來吧。

前言

提取中英文是我們在做數(shù)據(jù)處理時候經(jīng)常使用的,最高效的做法就是通過正則判斷了,下面是我寫的筆記,希望對你有用

一. re中的sub函數(shù)

使用Python 的re模塊,re模塊提供了re.sub用于替換字符串中的匹配項。

re.sub(pattern, repl, string, count=0)

參數(shù)說明:

  • pattern:正則重的模式字符串
  • repl:被拿來替換的字符串
  • string:要被用于替換的原始字符串
  • count:模式匹配后替換的最大次數(shù),省略則默認為0,表示替換所有的匹配

1.1 提取中文

可以這樣想:我們可以通過將不是中文的字符替換為空不就可以了

例如

import re
str = "重出江湖hello的地H方。。的,world"
str = re.sub("[A-Za-z0-9,。]", "", str)
print(str)
輸出:神的孩子在唱歌

1.2 提取英文

import re
str = "重123出江湖hello的地H方。。的,world"
str = re.sub("[u4e00-u9fa5