正則啊,就像一座燈塔,當(dāng)你在字符串的海洋不知所措的時候,總能給你一點(diǎn)思路;正則啊,就像一臺驗鈔機(jī),在你不知道用戶提交的鈔票真假的時候,總能幫你一眼識別;正則啊,就像一個手電筒,在你需要找什么玩意的時候,總能幫你get你要的東西...
—— 節(jié)選自 Stinson 同學(xué)的語文排比句練習(xí)《正則》
欣賞了一段文學(xué)節(jié)選后,我們正式來梳理一遍JS中的正則,本文的首要目的是,防止我經(jīng)常忘記正則的一些用法,故梳理和寫下來加強(qiáng)熟練度和用作參考,次要目的是與君共勉,如有紕漏,請不吝賜教,良辰謝過。
本文既然取題為“一條龍”,就要對得起”龍”,故將包括正則原理、語法一覽、JS(ES5)中的正則、ES6對正則的擴(kuò)展、實(shí)踐正則的思路,我盡量深入盡量淺出地去講這些東西(搞得好像真能深入淺出一樣的),如果你只想知道怎么應(yīng)用,那么看第二、三、五部分,基本就能滿足你的需求了,如果想掌握J(rèn)S中的正則的,那么還是委屈你跟著我的思路來吧,嘿嘿嘿!
一、原理概論
在一開始用正則的時候,就覺得神奇,計算機(jī)究竟是怎么根據(jù)一個正則表達(dá)式來匹配字符串的?直到后來我遇到了一本書叫《計算理論》,看到了正則、DFA、NFA的概念和相互間的聯(lián)系,才有一些恍然小悟的意思。
但如果真的要從原理上吃透正則表達(dá)式,那么恐怕最好的方式是:
1. 首先去找一本專門講正則的書去看看,O'REILLY的“動物總動員”系列里就有;
2. 再自己實(shí)現(xiàn)一個正則引擎。
而本文的重點(diǎn)在于JS中正則的應(yīng)用,故原理僅作簡單介紹(因為我也沒寫過正則引擎,也不深入),一來大致“糊弄下”像我一樣的好奇寶寶們對正則原理的疑惑,二來知道一些原理方面基本的知識,對于理解語法和寫正則是大有裨益的。
1. 正則引擎
為什么正則能有效,因為有引擎,這和為什么JS能執(zhí)行一樣,有JS引擎,所謂正則引擎,可以理解為根據(jù)你的正則表達(dá)式用算法去模擬一臺機(jī)器,這臺機(jī)器有很多狀態(tài),通過讀取待測的字符串,在這些狀態(tài)間跳來跳去,如果最后停在了“終結(jié)狀態(tài)”(Happy Ending),那么就Say I Do,否則Say You Are a Good Man。如此將一個正則表達(dá)式轉(zhuǎn)換為一個可在有限的步數(shù)中計算出結(jié)果的機(jī)器,那么就實(shí)現(xiàn)了引擎。
正則的引擎大致可分為兩類:DFA和NFA
1. DFA (Deterministic finite automaton) 確定型有窮自動機(jī)
2. NFA (Non-deterministic finite automaton) 非確定型有窮自動機(jī),大部分都是NFA
這里的“確定型”指,對于某個確定字符的輸入,這臺機(jī)器的狀態(tài)會確定地從a跳到b,“非確定型”指,對于某個確定字符的輸入,這臺機(jī)器可能有好幾種狀態(tài)的跳法;這里的“有窮”指,狀態(tài)是有限的,可以在有限的步數(shù)內(nèi)確定某個字符串是被接受還是發(fā)好人卡的;這里的“自動機(jī)”,可以理解為,一旦這臺機(jī)器的規(guī)則設(shè)定完成,就可以自行判斷了,不要人看。
DFA引擎不需要進(jìn)行回溯,所以匹配效率一般情況下要高,但是它并不支持捕獲組,于是也就不支持反向引用和$這種形式的引用,也不支持環(huán)視(Lookaround)、非貪婪模式等一些NFA引擎特有的特性。
如果想更詳細(xì)地了解正則、DFA、NFA,那么可以去看一下《計算理論》,然后你可以根據(jù)某個正則表達(dá)式自己畫出一臺自動機(jī)。
2. 知識儲備
這一小節(jié)對于你理解正則表達(dá)式很有用,尤其是明白什么是字符,什么是位置。
2.1 正則眼中的字符串——n個字符,n+1個位置
在上面的“笑聲”字符串中,一共有8個字符,這是你能看到的,還有9個位置,這是聰明的人才能看到的。為什么要有字符還要有位置呢?因為位置是可以被匹配的。
那么進(jìn)一步我們再來理解“占有字符”和“零寬度”:
占有字符是互斥的,零寬度是非互斥的。也就是一個字符,同一時間只能由一個子表達(dá)式匹配,而一個位置,卻可以同時由多個零寬度的子表達(dá)式匹配。舉個栗子,比如/aa/是匹配不了a的,這個字符串中的a只能由正則的第一個a字符匹配,而不能同時由第二個a匹配(廢話);但是位置是可以多個匹配的,比如/\b\ba/是可以匹配a的,雖然正則表達(dá)式里有2個表示單詞開頭位置的\b元字符,這兩個\b是可以同時匹配位置0(在這個例子中)的。
注意:我們說字符和位置是面向字符串說的,而說占有字符和零寬度是面向正則說的。
2.2 控制權(quán)和傳動
這兩個詞可能在搜一些博文或者資料的時候會遇到,這里做一個解釋先:
控制權(quán)是指哪一個正則子表達(dá)式(可能為一個普通字符、元字符或元字符序列組成)在匹配字符串,那么控制權(quán)就在哪。
傳動是指正則引擎的一種機(jī)制,傳動裝置將定位正則從字符串的哪里開始匹配。
正則表達(dá)式當(dāng)開始匹配的時候,一般是由一個子表達(dá)式獲取控制權(quán),從字符串中的某一個位置開始嘗試匹配,一個子表達(dá)式開始嘗試匹配的位置,是從前一子表達(dá)匹配成功的結(jié)束位置開始的。
舉一個栗子,read(?=ing)ing\sbook匹配reading book,我們把這個正則看成5個子表達(dá)式read、(?=ing)、ing、\s、book,當(dāng)然你也可以吧read看做4個單獨(dú)字符的子表達(dá)式,只是我們這里為了方便這么看待。read從位置0開始匹配到位置4,后面的(?=ing)繼續(xù)從位置4開始匹配,發(fā)現(xiàn)位置4后面確實(shí)是ing,于是斷言匹配成功,也就是整一個(?=ing)就是匹配了位置4這一個位置而已(這里更能理解什么是零寬了吧),然后后面的ing再從位置4開始匹配到位置7,然后\s再從位置7匹配到位置8,最后的book從位置8匹配到位置12,整一個匹配完成。
3. 匹配之旅“淺”度游(可跳過)
說了那么多,我們把自己當(dāng)做一個正則引擎,一步一步以最小的單位——“字符”和“位置”——去看一下正則匹配的過程,舉幾個栗子。
3.1 基本匹配
正則表達(dá)式:easy
源字符串:So easy
匹配過程:首先由正則表達(dá)式字符e取得控制權(quán),從字符串的位置0開始匹配,遇到字符串字符‘S',匹配失敗,然后正則引擎向前傳動,從位置1開始嘗試,遇到字符串字符‘o',匹配失敗,繼續(xù)傳動,后面的空格自然也失敗,于是從位置3開始嘗試匹配,成功匹配字符串字符‘e',控制權(quán)交給正則表達(dá)式子表達(dá)式(這里也是一個字符)a,嘗試從上次匹配成功的結(jié)束位置4開始匹配,成功匹配字符串字符‘a(chǎn)',后面一直如此匹配到‘y',然后匹配完成,匹配結(jié)果為easy。
3.2 零寬匹配
正則:^(?=[aeiou])[a-z]+$ 源字符串:apple
首先這個正則表示:匹配這樣一個從頭到尾完整的字符串,這整一個字符串僅由小寫字母組成,并且以a、e、i、o、u這5個字母任一字母開頭。
匹配過程:首先正則的^(表示字符串開始的位置)獲取控制權(quán),從位置0開始匹配,匹配成功,控制權(quán)交給(?=[aeiou]),這個子表達(dá)式要求該位置右邊必須是元音小寫字母中的一個,零寬子表達(dá)式相互間不互斥,所以從位置0開始嘗試匹配,右側(cè)是字符串的‘a(chǎn)',符合因此匹配成功,所以(?=[aeiou])匹配此處的位置0匹配成功,控制權(quán)交給[a-z]+,從位置0開始匹配,字符串‘a(chǎn)pple'中的每個字符都匹配成功,匹配到字符串末尾,控制權(quán)交回正則的$,嘗試匹配字符串結(jié)束位置,成功,至此,整個匹配完成。
3.3 貪婪匹配和非貪婪匹配
正則1:{.*} 正則2:{.*?} 源字符串:{233}
這里有兩個正則,在限定符(語法會講什么是限定符)后面加?符號表示忽略優(yōu)先量詞,也就是非貪婪匹配,這個栗子我剝得快一點(diǎn)。
首先開頭的{匹配,兩個正則都是一樣的表現(xiàn)。
正則1的.*為貪婪匹配,所以一直匹配余下字符串'233}',匹配到字符串結(jié)束位置,只是每次匹配,都記錄一個備選狀態(tài),為了以后回溯,每次匹配有兩條路,選擇了匹配這條路,但記一下這里還可以有不匹配這條路,如果前面死胡同了,可以退回來,此時控制權(quán)交還給正則的},去匹配字符串結(jié)束位置,失敗,于是回溯,意思就是說前面的.*你吃的太多了,吐一個出來,于是控制權(quán)回給.*,吐出一個}(其實(shí)是用了前面記錄的備選狀態(tài),嘗試不用.*去匹配'}'),控制權(quán)再給正則的},這次匹配就成功了。
正則2的.*?為非貪婪匹配,盡可能少地匹配,所以匹配'233}'的每一個字符的時候,都是嘗試不匹配,但是一但控制權(quán)交還給最后的}就發(fā)現(xiàn)出問題了,趕緊回溯乖乖匹配,于是每一個字符都如此,最終匹配成功。
云里霧里?這就對了!可以移步去下面推薦的博客看看:
想詳細(xì)了解貪婪和非貪婪匹配原理以及獲取更多正則相關(guān)原理,除了看書之外,推薦去一個CSDN的博客 雁過無痕-博客頻道 - CSDN.NET ,講解得很詳細(xì)和透徹
二、語法一覽
正則的語法相信許多人已經(jīng)看過deerchao寫的30分鐘入門教程,我也是從那篇文字中入門的,deerchao從語法邏輯的角度以.NET正則的標(biāo)準(zhǔn)來講述了正則語法,而我想重新組織一遍,以便于應(yīng)用的角度、以JS為宿主語言來重新梳理一遍語法,這將便于我們把語言描述翻譯成正則表達(dá)式。
下面這張一覽圖(可能需要放大),整理了常用的正則語法,并且將JS不支持的語法特性以紅色標(biāo)注出來了(正文將不會描述這些不支持的特性),語法部分的詳細(xì)描述也將根據(jù)下面的圖,從上到下,從左到右的順序來梳理,盡量不啰嗦。
1. 要用某類常見字符——簡單元字符
為什么這里要加簡單2個字,因為在正則中,\d、\w這樣的叫元字符,而{n,m}、(?!exp)這樣的也叫元字符,所以元字符是在正則中有特定意義的標(biāo)識,而這一小節(jié)講的是簡單的一些元字符。
匹配某個位置的表達(dá)式都是零寬的,這是主要包含兩部分,一是定位符,匹配一個特定位置,二是零寬斷言,匹配一個要滿足某要求的位置。
定位符有以下幾個常用的:
零寬斷言(JS支持的)有以下兩個:
我們經(jīng)常會表達(dá)“或”的含義,比如這幾個字符中的任意一個都行,再比如匹配5個數(shù)字或者5個字母都行等等需求。
字符簇可用來表達(dá)字符級別的“或”語義,表示的是方括號中的字符任選一:
分歧用來表達(dá)表達(dá)式級別的“或”語義,表示的是匹配|左右任一表達(dá)就可:
有時候我們想表達(dá)“除了某些字符之外”這樣的需求,這個時候就要用到反義
其實(shí)你在上面的一些地方已經(jīng)看到了圓括號,是的,圓括號就是用來分組的,括在一對括號里的就是一個分組。
上面講的大部分是針對字符級別的,比如重復(fù)字母 “A” 5次,可以用A{5}來表示,但是如果想要字符串“ABC”重復(fù)5次呢?這個時候就需要用到括號。
括號的第一個作用,將括起來的分組當(dāng)做一個整體看待,所以你可以像對待字符重復(fù)一樣在一個分組后面加限定符,比如(ABC){5}。
分組匹配到的內(nèi)容也就是這個分組捕獲到的內(nèi)容,從左往右,以左括號為標(biāo)志,每個分組會自動擁有一個從1開始的編號,編號0的分組對應(yīng)整個正則表達(dá)式,JS不支持捕獲組顯示命名。
括號的第二個作用,分組捕獲到的內(nèi)容,可以在之后通過\分組編號的形式進(jìn)行后向引用。比如(ab|cd)123\1可以匹配“ab123ab”或者“cd123cd”,但是不能匹配“ab123cd”或“cd123ab”,這里有一對括號,也是第一對括號,所以編號為捕獲組1,然后在正則中通過\1去引用了捕獲組1的捕獲的內(nèi)容,這叫后向引用。
括號的第三個作用,改變優(yōu)先級,比如abc|de和(abc|d)e表達(dá)的完全不是一個意思。
任何在正則表達(dá)式中有作用的字符都建議轉(zhuǎn)義,哪怕有些情況下不轉(zhuǎn)義也能正確,比如[]中的圓括號、^符號等。
優(yōu)先級從高到低是:
在限定符中,除了{(lán)n}確切表示重復(fù)幾次,其余的都是一個有下限的范圍。
在默認(rèn)的模式(貪婪)下,會盡可能多的匹配內(nèi)容。比如用ab*去匹配字符串“abbb”,結(jié)果是“abbb”。
而通過在限定符后面加問號?可以進(jìn)行非貪婪匹配,會盡可能少地匹配。用ab*?去匹配“abbb”,結(jié)果會是“a”。
不帶問號的限定符也稱匹配優(yōu)先量詞,帶問號的限定符也稱忽略匹配優(yōu)先量詞。
其實(shí)正則的匹配選項有很多可選,不同的宿主語言環(huán)境下可能各有不同,此處就JS的修飾符作一個說明:
JS中的正則由引用類型RegExp表示,下面主要就RegExp類型的創(chuàng)建、兩個主要方法和構(gòu)造函數(shù)屬性來展開,然后會提及String類型上的模式匹配,最后會簡單羅列JS中正則的一些局限。
一種是用字面量的方式創(chuàng)建,一種是用構(gòu)造函數(shù)創(chuàng)建,我們始終建議用前者。
//創(chuàng)建一個正則表達(dá)式 var exp = /pattern/flags; //比如 var pattern=/\b[aeiou][a-z]+\b/gi; //等價下面的構(gòu)造函數(shù)創(chuàng)建 var pattern=new RegExp("\\b[aeiou][a-z]+\\b","gi");
其中pattern可以是任意的正則表達(dá)式,flags部分是修飾符,在上文中已經(jīng)闡述過了,有 g、i、m 這3個(ES5中)。
現(xiàn)在說一下為什么不要用構(gòu)造函數(shù),因為用構(gòu)造函數(shù)創(chuàng)建正則,可能會導(dǎo)致對一些字符的雙重轉(zhuǎn)義,在上面的例子中,構(gòu)造函數(shù)中第一個參數(shù)必須傳入字符串(ES6可以傳字面量),所以字符\ 會被轉(zhuǎn)義成\,因此字面量的\b會變成字符串中的\\b,這樣很容易出錯,賊多的反斜杠。
2. RegExp上用來匹配提取的方法——exec()
var matches=pattern.exec(str); 接受一個參數(shù):源字符串 返回:結(jié)果數(shù)組,在沒有匹配項的情況下返回null
結(jié)果數(shù)組包含兩個額外屬性,index表示匹配項在字符串中的位置,input表示源字符串,結(jié)果數(shù)組matches第一項即matches[0]表示匹配整個正則表達(dá)式匹配的字符串,matches[n]表示于模式中第n個捕獲組匹配的字符串。
要注意的是,第一,exec()永遠(yuǎn)只返回一個匹配項(指匹配整個正則的),第二,如果設(shè)置了g修飾符,每次調(diào)用exec()會在字符串中繼續(xù)查找新匹配項,不設(shè)置g修飾符,對一個字符串每次調(diào)用exec()永遠(yuǎn)只返回第一個匹配項。所以如果要匹配一個字符串中的所有需要匹配的地方,那么可以設(shè)置g修飾符,然后通過循環(huán)不斷調(diào)用exec方法。
//匹配所有ing結(jié)尾的單詞 var str="Reading and Writing"; var pattern=/\b([a-zA-Z]+)ing\b/g; var matches; while(matches=pattern.exec(str)){ console.log(matches.index +' '+ matches[0] + ' ' + matches[1]); } //循環(huán)2次輸出 //0 Reading Read //12 Writing Writ
3. RegExp上用來測試匹配成功與否的方法——test()
var result=pattern.test(str);
接受一個參數(shù):源字符串
返回:找到匹配項,返回true,沒找到返回false
4. RegExp構(gòu)造函數(shù)屬性
RegExp構(gòu)造函數(shù)包含一些屬性,適用于作用域中的所有正則表達(dá)式,并且基于所執(zhí)行的最近一次正則表達(dá)式操作而變化。
5. String類型上的模式匹配方法
上面提到的exec和test都是在RegExp實(shí)例上的方法,調(diào)用主體是一個正則表達(dá)式,而以字符串為主體調(diào)用模式匹配也是最為常用的。
5.1 匹配捕獲的match方法
在字符串上調(diào)用match方法,本質(zhì)上和在正則上調(diào)用exec相同,但是match方法返回的結(jié)果數(shù)組是沒有input和index屬性的。
var str="Reading and Writing"; var pattern=/\b([a-zA-Z]+)ing\b/g; //在String上調(diào)用match var matches=str.match(pattern); //等價于在RegExp上調(diào)用exec var matches=pattern.exec(str);
5.2 返回索引的search方法
接受的參數(shù)和match方法相同,要么是一個正則表達(dá)式,要么是一個RegExp對象。
//下面兩個控制臺輸出是一樣的,都是5 var str="I am reading."; var pattern=/\b([a-zA-Z]+)ing\b/g; var matches=pattern.exec(str); console.log(matches.index); var pos=str.search(pattern); console.log(pos);
5.3 查找并替換的replace方法
var result=str.replace(RegExp or String, String or Function); 第一個參數(shù)(查找):RegExp對象或者是一個字符串(這個字符串就被看做一個平凡的字符串) 第二個參數(shù)(替換內(nèi)容):一個字符串或者是一個函數(shù) 返回:替換后的結(jié)果字符串,不會改變原來的字符串
第一個參數(shù)是字符串
只會替換第一個子字符串
第一個參數(shù)是正則
指定g修飾符,則會替換所有匹配正則的地方,否則只替換第一處
第二個參數(shù)是字符串
可以使用一些特殊的字符序列,將正則表達(dá)式操作的值插進(jìn)入,這是很常用的。
第二個參數(shù)是一個函數(shù)
這個函數(shù)要返回一個字符串,表示要替換掉的匹配項
基于指定的分隔符將一個字符串分割成多個子字符串,將結(jié)果放入一個數(shù)組,接受的第一個參數(shù)可以是RegExp對象或者是一個字符串(不會被轉(zhuǎn)為正則),第二個參數(shù)可選指定數(shù)組大小,確保數(shù)組不會超過既定大小。
JS(ES5)中不支持以下正則特性(在一覽圖中也可以看到):
匹配字符串開始和結(jié)尾的\A和\Z錨 向后查找(所以不支持零寬度后發(fā)斷言) 并集和交集類 原子組 Unicode支持(\uFFFF之后的) 命名的捕獲組 單行和無間隔模式 條件匹配 注釋
四、ES6對正則的主要加強(qiáng)
ES6對正則做了一些加強(qiáng),這邊僅僅簡單羅列以下主要的3點(diǎn),具體可以去看ES6
1. 構(gòu)造函數(shù)可以傳正則字面量了
ES5中構(gòu)造函數(shù)是不能接受字面量的正則的,所以會有雙重轉(zhuǎn)義,但是ES6是支持的,即便如此,還是建議用字面量創(chuàng)建,簡潔高效。
2. u修飾符
加了u修飾符,會正確處理大于\uFFFF的Unicode,意味著4個字節(jié)的Unicode字符也可以被支持了。
// \uD83D\uDC2A是一個4字節(jié)的UTF-16編碼,代表一個字符 /^\uD83D/u.test('\uD83D\uDC2A') // false,加了u可以正確處理 /^\uD83D/.test('\uD83D\uDC2A') // true,不加u,當(dāng)做兩個unicode字符處理
加了u修飾符,會改變一些正則的行為:
3. y修飾符
y修飾符的作用與g修飾符類似,也是全局匹配,開始從位置0開始,后一次匹配都從上一次匹配成功的下一個位置開始。
不同之處在于,g修飾符只要剩余位置中存在匹配就可,而y修飾符確保匹配必須從剩余的第一個位置開始。
所以/a/y去匹配"ba"會匹配失敗,因為y修飾符要求,在剩余位置第一個位置(這里是位置0)開始就要匹配。
ES6對正則的加強(qiáng),可以看這篇
五、應(yīng)用正則的實(shí)踐思路
應(yīng)用正則,一般是要先想到正則(廢話),只要看到和“找”相關(guān)的需求并且這個源是可以被字符串化的,就可以想到用正則試試。
一般在應(yīng)用正則有兩類情況,一是驗證類問題,另一類是搜索、提取、替換類問題。驗證,最常見的如表單驗證;搜索,以某些設(shè)定的命令加關(guān)鍵詞去搜索;提取,從某段文字中提取什么,或者從某個JSON對象中提取什么(因為JSON對象可以字符串化啊);替換,模板引擎中用到。
1. 驗證類問題
驗證類問題是我們最常遇到的,這個時候其實(shí)源字符串長什么樣我們是不知道,鬼知道萌萌噠的用戶會做出什么邪惡的事情來,推薦的方式是這樣的:
2. 搜索、提取、替換類問題
這類問題,一般我們是知道源文本的格式或者大致內(nèi)容的,所以在解決這類問題時一般已經(jīng)會有一些測試的源數(shù)據(jù),我們要從這些源數(shù)據(jù)中提取出什么、或者替換什么。
終于絮絮叨叨寫完了,1萬多字有關(guān)JS正則的講解,寫完發(fā)現(xiàn)自己對正則的熟練又進(jìn)了一步,所以推薦大家經(jīng)常做做梳理,很有用,然后樂于分享,于己于人都是大有裨益,感謝能看完的所有人。
我沒有仔細(xì)地審稿,大家遇到什么問題,或者發(fā)現(xiàn)有什么紕漏之處,還望大家指出,留言就好。我會及時修改。
標(biāo)簽:大興安嶺 ???/a> 泰安 本溪 哈密 湖州 常州 涼山
巨人網(wǎng)絡(luò)通訊聲明:本文標(biāo)題《JS正則表達(dá)式一條龍講解(從原理和語法到JS正則)》,本文關(guān)鍵詞 正則,表達(dá)式,一條龍,講解,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P(guān)信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡(luò),涉及言論、版權(quán)與本站無關(guān)。