21.1 什么是正则表达式
如果原来没有使用过正则表达式,那么读者可能对这个术语会完全不熟悉。对有些读者来说,这也许的确是一个陌生的概念。其实,平时在使用计算机的时候多少都会碰到正则表达式的影子。例如,要在计算机系统中查找某个文件,碰巧忘记了文件名,但知道该文件的类型,即知道该文件的后缀名,比如要找一个图片,那么可能会通过*.png这样的字符来帮助查找,其中字符*就代表了一个或多个字符。计算机通过这样的字符组合,会将系统中所有以.png为后缀名的文件列出来,如m.png、flag.png、river.png、mydog.png等,以便用户找到需要的图片文件。
事实上,可以将这个例子中的*.png看做是一个正则表达式,利用这个表达式,计算机匹配出符合条件的多个文件。又如,要搜索一个包含字符“cat”的字符串,搜索用的正则表达式就是“cat”。如果搜索对大小写不敏感,单词“catalog”、“Catherine”、“sophisticated”都可以匹配。
正则表达式(Regular Expression)实际上就是负责对字符串做解析对比,从而分析出字符串的构成,以便进一步并对字符串做相关的处理。
编程过程中经常会遇到对文本和字符串的判别处理。有时,程序需要判别一个字符串是否符合某种格式,以决定程序的执行流程。例如,在程序中验证用户在Web页面输入的邮件地址的格式是否正确。如果通过正则表达式验证用户邮件地址的格式正确,用户所填写的表单信息将会被正常处理;反之,如果用户输入的邮件地址与正则表达的模式不匹配,将会弹出提示信息,要求用户重新输入正确的邮件地址。这样的问题就可以通过正则表达式来处理。
提示 正则表达式允许用户通过使用某些特殊字符构建匹配模式,然后把匹配模式与文件中的数据、程序输入或者Web页面的表单输入等目标对象进行比较,根据这些输入中是否包含匹配模式,来执行相应的程序。