设为首页 收藏本站
查看: 564|回复: 0

[经验分享] Linux基础之文本处理工具grep及正则表达式(附带egrep与grep的不同)

[复制链接]
累计签到:1 天
连续签到:1 天
发表于 2016-8-8 12:56:48 | 显示全部楼层 |阅读模式
文本处理工具grep,正则表达式在Linux学习过程中很容易出现困惑与障碍的地方,这里分享下学习这方面内容的一些感受。


grep  Global search REgular expression and Print out the line
作用:文本搜索工具,根据用户指定的‘模式(过滤条件)’对目标文本逐行进行匹配检查;打印匹配到的行;
‘模式’:由正则表达式的元字符及文本字符所编写出的过滤条件。
grep [OPTIONS] PATTERN [FILE...]
grep [OPTIONS] [-e PATTERN | -f FILE] [FILE...]
常用选项:
-i:忽略字符大小写
-o:仅显示匹配到的字符串本身
-v:显示不能被模式匹配到的行
-E:支持扩展正则表达式元字符
-q:静默模式,匹配不显示
-A#:after,显示匹配条件所在行的后#行
-B#:before,显示匹配条件所在行的前#行
-C#:context,显示匹配条件所在行的前后#行
-n:显示匹配的行号(用的较少)
-c: 统计匹配的行数(用的较少)
下面以几个小实验对grep的用法及选项做下具体的演示

实验目录/test 文本/test/head
1
2
3
4
5
6
7
8
9
[iyunv@localhost test]# cat head
12345 Sdabc saber
Berar bserac
12cds
67890
12
345
123
6



wKioL1enLOHQBBq6AAA8VZfgRn8682.jpg


正则表达式:Regual Expression,REGEXP

它由一类特殊字符及文本字符所编写的模式,其中有些字符不表示其字面意义,而是用于表示控制或通配的功能。
它分两类:基本正则表达式BRE、扩展正则表达式ERE

基本正则表达式元字符:
包括:字符匹配、匹配次数、位置锚定、分组

字符匹配:
. :匹配任意单个字符;        [] :匹配指定范围内的任意单个字符
[^] :匹配指定范围外的任意单个字符
常用集合:[:digit:]、[:lower:]、[:upper:]、[:alpha:]、[:alnum:]、[:punct:]、[:space:]
wKiom1enJHPSbB2mAAAOAbMrRZ4951.jpg
wKioL1enJHSBRYXkAAAOp5xCHD0739.jpg
wKiom1enJHTidiqIAAANM23CGag486.jpg

匹配次数:用在要指定次数的字符后面,用于指定前面的字符要出现的次数
*:匹配前面的字符任意次,包括0次;贪婪模式:尽可能长的匹配
.*:任意长度的任意字符
\?:匹配其前面的字符0或1次
\+:匹配其前面的字符至少1次
\{m\}:匹配前面的字符m次
\{m,n\}:匹配前面的字符至少m次,至多n次
\{,n\}:匹配前面的字符至多n次
\{m,\}:匹配前面的字符至少m次
wKioL1enJU_hYm2UAAAh7gQ1Uh8244.jpg

位置锚定:定位出现的位置
^:行首锚定,用于模式的最左侧
$:行尾锚定,用于模式的最右侧
^PATTERN$: 用于模式匹配整行
^$: 空行
^[[:space:]]*$ :空白行
单词:非特殊字符组成的连续字符在Linux看来都称单词
\< 或\b:词首锚定,用于单词模式的左侧
\> 或\b:词尾锚定;用于单词模式的右侧
\<PATTERN\>:匹配完整的单词
wKiom1enKfmg9DkTAAAN_-0PJok776.jpg
1、查找以for开头的行
wKiom1enKfrRZcIhAAAMy8Leg-M242.jpg
2、检索只含有for的字符串;检索含有for的内容
wKiom1enKfqhfPVHAAAXAecfD08440.jpg
3、检索以for结尾的行;检索以for结尾的字符串
wKioL1enKfrhkNqvAAAUSl5w1lg347.jpg

分组:\(\):将一个或多个字符捆绑在一起,当作一个整体进行处理,如:\(root\)\+

分组括号中的模式匹配到的内容会被正则表达式引擎记录于内部的变量中,这些变量的命名方式为: \1, \2, \3, ...
\1: 从左侧起,第一个左括号以及与之匹配右括号之间的模式所匹配到的字符;
实例:\(string1\+\(string2\)*\)
\1: string1\+\(string2\)*
\2: string2
后向引用:引用前面的分组括号中的模式所匹配字符(而非模式本身)
wKioL1enK2mg9G-HAAAM4T6H4HY417.jpg
上述命令意思是检索包含有for字符串后跟任意字符且出现一次,连续出现上述情况两次截取结果。后面的\1是重复第一个括号内的检索对象。


egrep= grep -E

egrep[OPTIONS] PATTERN [FILE...]
扩展正则表达式的元字符:

字符匹配:同基本正则表达式

次数匹配:
*:匹配前面字符任意次
?: 0或1次
+:1次或多次
{m}:匹配m次
{m,n}:至少m,至多n次

位置锚定:同基本正则表达式

分组:
()
后向引用:\1, \2, ...

或者:
a|b
C|cat: C或cat
(C|c)at:Cat或cat


最后我们通过9个例子来感受grep与正则表达式结合所能实现的功能

1、显示/proc/meminfo文件中以大小s开头的行
wKioL1enOhTjFKj3AAAZ2eDQ6FQ131.jpg
这个只需要知道grep的选项i就能轻松解决。

2、显示/etc/passwd文件中不以/bin/bash结尾的行
wKiom1enOiWhEjtbAABldH1yAcU272.jpg
先使用grep检索出包含有以“/bin/bash”结尾的行,再使用grep的-v取不以上面结果的行。类似数学中的补集效果。

3、找出ifconfig命令结果中本机的所有IPv4地址
wKioL1enOjiRNyOvAAA3quiV3Y0006.jpg
这个分为三步:
1)通过grep锁定包含有IPV4的行,这个通过分析ifconfig列出的信息可以看出规律,只要包含有IPv4的开头都有inet这个字母,所以我们只需要检索它就行了
2)接下来使用tr将所有空替换为“:”并压缩
3)使用cut实现结果。

4、查出分区空间使用率的最大百分比值
wKiom1enOmSgiGVhAAByMj9e38k462.jpg
wKioL1enOmXh5z0yAAAvcobvGfo647.jpg
这个大致分6步:
1)过滤汉字
2)使用tr替换所有空为":"并压缩
3)使用cut剪切出含有使用率百分比的数值
4)再次使用tr剔除%
5)使用sort按数值大小写排序

6)使用tail取出最大值

5、显示用户rpc默认的shell程序
wKiom1enOnbgCk-MAAAXCtu3GCc540.jpg
上面的检索条件是以rpc为行首且以它为字符结尾的行

6、找出/etc/passwd中的两位或三位数
wKioL1enOoawqYciAADHo1B8ojs316.jpg
这里使用的是扩展正则表达式因为可以是表达式更简洁
这里需要注意的是要以两位或三位数为字符串,这需要对其进行开头与结尾的字符锚定

7、找出/etc/rc.d/init.d/functions文件中行首为某单词(包括下划线)后面跟一个小括号的行
wKiom1enOpeQbOJyAAAvRCxLKdk216.jpg
当我们想好要过滤的条件后,要对其进行行首及字符的锚定,否则会导致条件范围不严谨
这里要注意的是.*\>\(\),如果这里改写为.*\(\)\>则会失败,具体可以自己想想。其实.*已经包括了"()",所以后面的是重复的,这样就容易出错。

8、使用egrep取出/etc/rc.d/init.d/functions中其基名
wKioL1enOqqhsZk8AAAXnJhJ6zU480.jpg
wKiom1enOqrBIWfSAAAbhMWWp5g365.jpg
上面是两种方法,一种利用grep直接检索出来,另一种的思想是分割。各有特点

9、利用扩展正则表达式分别表示0-9、10-99、100-199、200-249、250-255
\<[0-9]\>:0-9
\<[1-9][0-9]|>:10-99
\<1[0-9][0-9]\> | \<1[0-9]{2}\>:100-199
\<2[0-4][0-9]\> :200-249
\<25[0-5]\>:250-255


运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-254789-1-1.html 上篇帖子: Linux NFS服务 服务端 下篇帖子: SSH的key认证
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表