正则表达式规则 正则表达式大白话解释
这篇文章给大家聊聊关于正则表达式规则,以及正则表达式大白话解释对应的知识点,希望对各位有所帮助,不要忘了收藏本站哦。
正则表达式的基本规则
正则表达式是一种描述字符串结果的语法规则,是一个特定的格式化模式,可以匹配、替换、截取匹配的字符串。常用的语言基本上都有正则表达式,如JavaScript、java等。
其实,只要了解一种语言的正则使用,其他语言的正则使用起来,也就完全没有什么问题了。下面,我们就来讲讲正则表达式的一些基本规则。
一、起始与结束定位符(^与$)
起始与结束定位符是用来描述字符串的开始与结尾。如:"^"表示行匹配的字符串的开始,"$"表示字符串的结尾,如:/^aaa(.*?)bbb$/,表示一个要匹配的字符串是以aaa开始的,bbb结尾的,中间可以穿插任意字符串。
二、选择字符"|"
选择字符表示或的意思。如(my|your)baby,mybaby与yourbaby都可以匹配到。
三、万能匹配符.
"."在正则表达式中代表任意字符,但是只代表一个。
四、数量匹配运算符"+","*","?"
"*"代表0或多次,"+"代表1或多次,"?"代表0或1次。
五、贪婪模式与非贪婪模式
前面说过?是0个或1个的意思。如果您正则表达式是用于字符串替换的,那么贪婪模式就是所有匹配的都替换,非贪婪模式就是只替换第一个。通常在一个表达式后添加?就是非贪婪模式,
综合实例,如何将一个网址news.html,news-page-1.html,news-page-2.html,news-page-3.html用一个正则表达式都匹配起来。
答:/^news(.*?)\.html$/
javascript中的正则表达式有什么规范
正则表达式规则
1.正则表达式规则
1.1普通字符
字母、数字、汉字、下划线、以及后边章节中没有特殊定义的标点符号,都是"普通字符"。表达式中的普通字符,在匹配一个字符串的时候,匹配与之相同的一个字符。
举例1:表达式"c",在匹配字符串"abcde"时,匹配结果是:成功;匹配到的内容是:"c";匹配到的位置是:开始于2,结束于3。(注:下标从0开始还是从1开始,因当前编程语言的不同而可能不同)
举例2:表达式"bcd",在匹配字符串"abcde"时,匹配结果是:成功;匹配到的内容是:"bcd";匹配到的位置是:开始于1,结束于4。
--------------------------------------------------------------------------------
1.2简单的转义字符
一些不便书写的字符,采用在前面加"\"的方法。这些字符其实我们都已经熟知了。
表达式
可匹配
\r,\n
代表回车和换行符
\t
制表符
\\
代表"\"本身
还有其他一些在后边章节中有特殊用处的标点符号,在前面加"\"后,就代表该符号本身。比如:^,$都有特殊意义,如果要想匹配字符串中"^"和"$"字符,则表达式就需要写成"\^"和"\$"。
表达式
可匹配
\^
匹配 ^符号本身
\$
匹配$符号本身
\.
匹配小数点(.)本身
这些转义字符的匹配方法与"普通字符"是类似的。也是匹配与之相同的一个字符。
举例1:表达式"\$d",在匹配字符串"abc$de"时,匹配结果是:成功;匹配到的内容是:"$d";匹配到的位置是:开始于3,结束于5。
--------------------------------------------------------------------------------
1.3能够与'多种字符'匹配的表达式
正则表达式中的一些表示方法,可以匹配'多种字符'其中的任意一个字符。比如,表达式"\d"可以匹配任意一个数字。虽然可以匹配其中任意字符,但是只能是一个,不是多个。这就好比玩扑克牌时候,大小王可以代替任意一张牌,但是只能代替一张牌。
表达式
可匹配
\d
任意一个数字,0~9中的任意一个
\w
任意一个字母或数字或下划线,也就是 A~Z,a~z,0~9,_中任意一个
\s
包括空格、制表符、换页符等空白字符的其中任意一个
.
小数点可以匹配除了换行符(\n)以外的任意一个字符
举例1:表达式"\d\d",在匹配"abc123"时,匹配的结果是:成功;匹配到的内容是:"12";匹配到的位置是:开始于3,结束于5。
举例2:表达式"a.\d",在匹配"aaa100"时,匹配的结果是:成功;匹配到的内容是:"aa1";匹配到的位置是:开始于1,结束于4。
--------------------------------------------------------------------------------
1.4自定义能够匹配'多种字符'的表达式
使用方括号 [ ]包含一系列字符,能够匹配其中任意一个字符。用 [^ ]包含一系列字符,则能够匹配其中字符之外的任意一个字符。同样的道理,虽然可以匹配其中任意一个,但是只能是一个,不是多个。
表达式
可匹配
[ab5@]
匹配"a"或"b"或"5"或"@"
[^abc]
匹配"a","b","c"之外的任意一个字符
[f-k]
匹配"f"~"k"之间的任意一个字母
[^A-F0-3]
匹配"A"~"F","0"~"3"之外的任意一个字符
举例1:表达式"[bcd][bcd]"匹配"abc123"时,匹配的结果是:成功;匹配到的内容是:"bc";匹配到的位置是:开始于1,结束于3。
举例2:表达式"[^abc]"匹配"abc123"时,匹配的结果是:成功;匹配到的内容是:"1";匹配到的位置是:开始于3,结束于4。
--------------------------------------------------------------------------------
1.5修饰匹配次数的特殊符号
前面章节中讲到的表达式,无论是只能匹配一种字符的表达式,还是可以匹配多种字符其中任意一个的表达式,都只能匹配一次。如果使用表达式再加上修饰匹配次数的特殊符号,那么不用重复书写表达式就可以重复匹配。
使用方法是:"次数修饰"放在"被修饰的表达式"后边。比如:"[bcd][bcd]"可以写成"[bcd]{2}"。
表达式
作用
{n}
表达式重复n次,比如:"\w{2}"相当于"\w\w";"a{5}"相当于"aaaaa"
{m,n}
表达式至少重复m次,最多重复n次,比如:"ba{1,3}"可以匹配"ba"或"baa"或"baaa"
{m,}
表达式至少重复m次,比如:"\w\d{2,}"可以匹配"a12","_456","M12344"...
?
匹配表达式0次或者1次,相当于{0,1},比如:"a[cd]?"可以匹配"a","ac","ad"
+
表达式至少出现1次,相当于{1,},比如:"a+b"可以匹配"ab","aab","aaab"...
*
表达式不出现或出现任意次,相当于{0,},比如:"\^*b"可以匹配"b","^^^b"...
举例1:表达式"\d+\.?\d*"在匹配"It costs$12.5"时,匹配的结果是:成功;匹配到的内容是:"12.5";匹配到的位置是:开始于10,结束于14。
举例2:表达式"go{2,8}gle"在匹配"Ads by goooooogle"时,匹配的结果是:成功;匹配到的内容是:"goooooogle";匹配到的位置是:开始于7,结束于17。
--------------------------------------------------------------------------------
1.6其他一些代表抽象意义的特殊符号
一些符号在表达式中代表抽象的特殊意义:
表达式
作用
^
与字符串开始的地方匹配,不匹配任何字符
$
与字符串结束的地方匹配,不匹配任何字符
\b
匹配一个单词边界,也就是单词和空格之间的位置,不匹配任何字符
进一步的文字说明仍然比较抽象,因此,举例帮助大家理解。
举例1:表达式"^aaa"在匹配"xxx aaa xxx"时,匹配结果是:失败。因为"^"要求与字符串开始的地方匹配,因此,只有当"aaa"位于字符串的开头的时候,"^aaa"才能匹配,比如:"aaa xxx xxx"。
举例2:表达式"aaa$"在匹配"xxx aaa xxx"时,匹配结果是:失败。因为"$"要求与字符串结束的地方匹配,因此,只有当"aaa"位于字符串的结尾的时候,"aaa$"才能匹配,比如:"xxx xxx aaa"。
举例3:表达式".\b."在匹配"@@@abc"时,匹配结果是:成功;匹配到的内容是:"@a";匹配到的位置是:开始于2,结束于4。
进一步说明:"\b"与"^"和"$"类似,本身不匹配任何字符,但是它要求它在匹配结果中所处位置的左右两边,其中一边是"\w"范围,另一边是非"\w"的范围。
举例4:表达式"\bend\b"在匹配"weekend,endfor,end"时,匹配结果是:成功;匹配到的内容是:"end";匹配到的位置是:开始于15,结束于18。
一些符号可以影响表达式内部的子表达式之间的关系:
表达式
作用
|
左右两边表达式之间"或"关系,匹配左边或者右边
()
(1).在被修饰匹配次数的时候,括号中的表达式可以作为整体被修饰
(2).取匹配结果的时候,括号中的表达式匹配到的内容可以被单独得到
举例5:表达式"Tom|Jack"在匹配字符串"I'm Tom, he is Jack"时,匹配结果是:成功;匹配到的内容是:"Tom";匹配到的位置是:开始于4,结束于7。匹配下一个时,匹配结果是:成功;匹配到的内容是:"Jack";匹配到的位置时:开始于15,结束于19。
举例6:表达式"(go\s*)+"在匹配"Let's go go go!"时,匹配结果是:成功;匹配到内容是:"go go go";匹配到的位置是:开始于6,结束于14。
举例7:表达式"¥(\d+\.?\d*)"在匹配"$10.9,¥20.5"时,匹配的结果是:成功;匹配到的内容是:"¥20.5";匹配到的位置是:开始于6,结束于10。单独获取括号范围匹配到的内容是:"20.5"。
--------------------------------------------------------------------------------
2.正则表达式中的一些高级规则
2.1匹配次数中的贪婪与非贪婪
在使用修饰匹配次数的特殊符号时,有几种表示方法可以使同一个表达式能够匹配不同的次数,比如:"{m,n}","{m,}","?","*","+",具体匹配的次数随被匹配的字符串而定。这种重复匹配不定次数的表达式在匹配过程中,总是尽可能多的匹配。比如,针对文本"dxxxdxxxd",举例如下:
表达式
匹配结果
(d)(\w+)
"\w+"将匹配第一个"d"之后的所有字符"xxxdxxxd"
(d)(\w+)(d)
"\w+"将匹配第一个"d"和最后一个"d"之间的所有字符"xxxdxxx"。虽然"\w+"也能够匹配上最后一个"d",但是为了使整个表达式匹配成功,"\w+"可以"让出"它本来能够匹配的最后一个"d"
由此可见,"\w+"在匹配的时候,总是尽可能多的匹配符合它规则的字符。虽然第二个举例中,它没有匹配最后一个"d",但那也是为了让整个表达式能够匹配成功。同理,带"*"和"{m,n}"的表达式都是尽可能地多匹配,带"?"的表达式在可匹配可不匹配的时候,也是尽可能的"要匹配"。这种匹配原则就叫作"贪婪"模式。
非贪婪模式:
在修饰匹配次数的特殊符号后再加上一个"?"号,则可以使匹配次数不定的表达式尽可能少的匹配,使可匹配可不匹配的表达式,尽可能的"不匹配"。这种匹配原则叫作"非贪婪"模式,也叫作"勉强"模式。如果少匹配就会导致整个表达式匹配失败的时候,与贪婪模式类似,非贪婪模式会最小限度的再匹配一些,以使整个表达式匹配成功。举例如下,针对文本"dxxxdxxxd"举例:
表达式
匹配结果
(d)(\w+?)
"\w+?"将尽可能少的匹配第一个"d"之后的字符,结果是:"\w+?"只匹配了一个"x"
(d)(\w+?)(d)
为了让整个表达式匹配成功,"\w+?"不得不匹配"xxx"才可以让后边的"d"匹配,从而使整个表达式匹配成功。因此,结果是:"\w+?"匹配"xxx"
更多的情况,举例如下:
举例1:表达式"<td>(.*)</td>"与字符串"<td><p>aa</p></td><td><p>bb</p></td>"匹配时,匹配的结果是:成功;匹配到的内容是"<td><p>aa</p></td><td><p>bb</p></td>"整个字符串,表达式中的"</td>"将与字符串中最后一个"</td>"匹配。
举例2:相比之下,表达式"<td>(.*?)</td>"匹配举例1中同样的字符串时,将只得到"<td><p>aa</p></td>",再次匹配下一个时,可以得到第二个"<td><p>bb</p></td>"。
--------------------------------------------------------------------------------
2.2反向引用\1,\2...
表达式在匹配时,表达式引擎会将小括号"()"包含的表达式所匹配到的字符串记录下来。在获取匹配结果的时候,小括号包含的表达式所匹配到的字符串可以单独获取。这一点,在前面的举例中,已经多次展示了。在实际应用场合中,当用某种边界来查找,而所要获取的内容又不包含边界时,必须使用小括号来指定所要的范围。比如前面的"<td>(.*?)</td>"。
其实,"小括号包含的表达式所匹配到的字符串"不仅是在匹配结束后才可以使用,在匹配过程中也可以使用。表达式后边的部分,可以引用前面"括号内的子匹配已经匹配到的字符串"。引用方法是"\"加上一个数字。"\1"引用第1对括号内匹配到的字符串,"\2"引用第2对括号内匹配到的字符串……以此类推,如果一对括号内包含另一对括号,则外层的括号先排序号。换句话说,哪一对的左括号"("在前,那这一对就先排序号。
举例如下:
举例1:表达式"('|")(.*?)(\1)"在匹配"'Hello',"World""时,匹配结果是:成功;匹配到的内容是:"'Hello'"。再次匹配下一个时,可以匹配到""World""。
举例2:表达式"(\w)\1{4,}"在匹配"aa bbbb abcdefg ccccc 111121111 999999999"时,匹配结果是:成功;匹配到的内容是"ccccc"。再次匹配下一个时,将得到 999999999。这个表达式要求"\w"范围的字符至少重复5次,注意与"\w{5,}"之间的区别。
举例3:表达式"<(\w+)\s*(\w+(=('|").*?\4)?\s*)*>.*?</\1>"在匹配"<td id='td1' style="bgcolor:white"></td>"时,匹配结果是成功。如果"<td>"与"</td>"不配对,则会匹配失败;如果改成其他配对,也可以匹配成功。
正则表达式规则如下:
表达式描述表达式描述
^匹配行首$匹配行尾
.匹配任何单个字符 []匹配集合中的字符
[^]匹配不在集合中的字符?匹配前一个样式0或1次
*匹配前一个样式0或更多次+匹配前一个样式1或更多次
|匹配前一个或后一个样式&匹配前一个样式0或更多次
#匹配前一个样式1或更多次{} Group char to form one pattern
() Group and remember\下一个字符直接用原意(只对a-z之外的字符有效)
<匹配词的开始>匹配词的结尾
\x##匹配ASCII码为##(16进制)的字符\N###匹配ASCII码为##(10进制)的字符
\o###匹配ASCII码为##(8进制)的字符\a匹配\a
\b匹配\b\f匹配\f
\r匹配 0x13(回车)\t匹配 0x09(跳格)
\v匹配\v\e匹配 Esc(0x05)
\n匹配0x10(换行)\s匹配空格(回车,换行,制表符,空格)
\S匹配非空格(!\s)\w整字匹配
\W非整字匹配\d匹配数字
\D匹配非数字\U匹配大写字母
\L匹配小写字母\C后面开始大小写敏感
\c后面开始大小写不敏感\#匹配前面定义的组(#: 1-9, a-f)
什么是正则表达式
正则表达式,又称规则表达式。是计算机科学的一个概念。
正则表达式通常被用来检索、替换那些符合某个模式(规则)的文本。许多程序设计语言都支持利用正则表达式进行字符串操作。例如,在Perl中就内建了一个功能强大的正则表达式引擎。正则表达式这个概念最初是由Unix中的工具软件(例如sed和grep)普及开的。
正则表达式通常缩写成“regex”,单数有regexp、regex,复数有regexps、regexes、regexen。
扩展资料
正则表达式的作用:
1、匹配
检查字符串是否符合正则表达式中的规则,有一次不匹配,则返回false。如:
String str="abc";
String reg="[a-zA-Z]\\d?";//次表达式表示字符串的第一位只能是字母,第二位只能是数字或没有boolean flag=str.matches(reg);//返回结果为true。
2、切割
所谓切割,即是按一定的规则将字符串分割成多个子字符串,如:
String str="zhangsan,lishi,wangwu"。
String reg=",";//表示以逗号作为切割符。
String[] arr=str.split(reg);//返回结果为{“zhangsan”,"lisi","wangwu}。
3、替换
即将字符串中符合规则的字符替换成指定字符,如:
String str="sfhjhfh136hjasdf73466247fsjha8437482jfjsfh746376"。
str.replaceAll("\\d{3,}","#");//表示将连续出现三个或三个以上的数字替换成“#”。
参考资料来源:百度百科-正则表达式
END,本文到此结束,如果可以帮助到大家,还望关注本站哦!