正则表达式是使用一些特殊的字符来匹配文本,广泛使用在文本搜索、Html解析、爬虫项目中,使用正则表达式可以非常快速的实现对文本的匹配。由于正则表达式较为抽象,而且特殊字符较多,不易学习,在这里我总结了正则表达式的常用方法以及规则,帮助学习理解正则表达式。
一、正则表达式格式
正则表达式是由普通字符(例如字符 a 到 z)以及特殊字符(称为”元字符”)组成的文字模式。模式描述在搜索文本时要匹配的一个或多个字符串。正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。
1、普通字符
普通字符包括所有大写和小写字母、所有数字、所有标点符号和一些其他符号。
2、特殊字符
特殊字符用于表达特殊的含义,一下是特殊字符的用法。需要注意的是,如果要匹配这些特殊字符,必须使用反斜杠字符(\)进行转义。
字符 | 语法规则 |
---|---|
$ | 匹配输入字符串的结尾位置。如果设置了 RegExp 对象的 Multiline 属性,则 $ 也匹配 ‘\n’ 或 ‘\r’。要匹配 $ 字符本身,请使用 $。 |
( ) | 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 ( 和 )。 |
* | 匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 *。 |
+ | 匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 +。 |
. | 匹配除换行符 \n之外的任何单字符。要匹配 .,请使用 \。 |
[ | 标记一个中括号表达式的开始。要匹配 [,请使用 [。 |
? | 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 \?。 |
\ | 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, ‘n’ 匹配字符 ‘n’。’\n’ 匹配换行符。序列 ‘\’ 匹配 “\”,而 ‘(‘ 则匹配 “(“。 |
^ | 匹配输入字符串的开始位置,除非在方括号表达式中使用,此时它表示不接受该字符集合。要匹配 ^ 字符本身,请使用 \^。 |
{ | 标记限定符表达式的开始。要匹配 {,请使用 {。 |
| | 指明两项之间的一个选择。要匹配 |,请使用 |。 |
限定符 | 限定符用来指定正则表达式的一个给定组件必须要出现多少次才能满足匹配 |
---|---|
{n} | n 是一个非负整数。匹配确定的 n 次。例如,’o{2}’ 不能匹配 “Bob” 中的 ‘o’,但是能匹配 “food” 中的两个 o。 |
{n,} | n 是一个非负整数。至少匹配n 次。例如,’o{2,}’ 不能匹配 “Bob” 中的 ‘o’,但能匹配 “foooood” 中的所有 o。’o{1,}’ 等价于 ‘o+’。’o{0,}’ 则等价于 ‘o*’。 |
{n,m} | m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次。例如,”o{1,3}” 将匹配 “fooooood” 中的前三个 o。’o{0,1}’ 等价于 ‘o?’。请注意在逗号和两个数之间不能有空格。 |
定位符 | 定位符使您能够将正则表达式固定到行首或行尾 |
---|---|
^ | 匹配输入字符串开始的位置。如果设置了 RegExp 对象的 Multiline 属性,^ 还会与 \n 或 \r 之后的位置匹配。 |
\b | 匹配一个字边界,即字与空格间的位置。 |
\B | 非字边界匹配。 |
二、正则表达式用法示例
1、匹配URL地址
能够匹配网址的正则表达式如下:
http://[a-zA-Z0-9\-\.]+\.[a-zA-Z]{2,4}
2、匹配电子邮件地址
能够匹配电子邮件的正则表达式如下:
[a-zA-Z0-9._]+@[a-zA-Z0-9.]+\.[a-zA-Z]{2,4}
不会搞[嘻嘻]
今天才发现你的博客,连着看了几篇呢 http://www.xevip.cn
过来看看你的博客,希望每天都更新一些文章。