文本剪切及合并-cut、tr、paste命令
cut命令
作用:通过选择列,提取文本的一部分。
格式:cut OPTTION [FILE]
常用参数选项:
cut最常用的选项是-d和-f的组合。
- -f : 通过指定哪一个字段进行提取。cut命令使用“TAB”作为默认的字段分隔符。
- -d : “TAB”是默认的分隔符,使用此选项可以更改为其他的分隔符。
- --complement : 此选项用于排除所指定的字段。
- --output-delimiter : 更改输出内容的分隔符。
使用说明:
cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。
如果不指定 File 参数,cut 命令将读取标准输入。必须指定 -b、-c 或 -f 标志之一。
分割方式
[study@localhost ~]$ cut -d ':' -f 1 /etc/passwd
root
bin
daemon
adm
lp
sync
....
提取多个字段:
[study@localhost ~]$ grep '/bin/bash' /etc/passwd| cut -d ':' -f 1,6
root:/root
bob:/home/bob
user01:/home/user01
选取字段范围:
[study@localhost ~]$ grep '/bin/bash' /etc/passwd|cut -d ':' -f 1-4,6,7
root:x:0:0:/root:/bin/bash
bob:x:1000:1001:/home/bob:/bin/bash
user01:x:1001:1002:/home/user01:/bin/bash
排除指定字段
# 输出除了第二字段以外的所有字段
[study@localhost ~]$ grep '/bin/bash' /etc/passwd|cut -d ':' --complement -f 2
root:0:0:root:/root:/bin/bash
bob:1000:1001::/home/bob:/bin/bash
user01:1001:1002::/home/user01:/bin/bash
改变输出内容的分隔符
输入分隔符-d
选项指定;改变输出分隔符需使用--output-delimiter
选项
[study@localhost ~]$cut -d ':' -f1,7 --output-delimiter=' ' /etc/passwd
root /bin/bash
bin /sbin/nologin
daemon /sbin/nologin
adm /sbin/nologin
lp /sbin/nologin
sync /bin/sync
...
cut命令的短缺
cut命令的一个限制是它不支持指定多个字符作为分隔符。多个空格被视为多个字段分隔符,使用tr命令可以将多个空格缩减为一个空格,再用cut处理。
tr命令
Linux tr 命令用于转换或删除文件中的字符。
tr 指令从标准输入设备读取数据,经过字符串转译后,将结果输出到标准输出设备。
tr [-cdst][--help][--version][第一字符集][第二字符集]
tr [OPTION]…SET1[SET2]
参数说明:
- -c, --complement:反选设定字符。也就是符合 SET1 的部份不做处理,不符合的剩余部份才进行转换
- -d, --delete:删除指定字符
- -s, --squeeze-repeats:缩减连续重复的字符成指定的单个字符
- -t, --truncate-set1:削减 SET1 指定范围,使之与 SET2 设定长度相等
#例
[leo@CentOS7 ~]$df
Filesystem 1K-blocks Used Available Use% Mounted on
devtmpfs 929392 0 929392 0% /dev
tmpfs 941000 24 940976 1% /dev/shm
tmpfs 941000 1316 939684 1% /run
tmpfs 941000 0 941000 0% /sys/fs/cgroup
/dev/vda1 51473868 23253788 26022836 48% /
tmpfs 188200 0 188200 0% /run/user/0
tmpfs 188200 0 188200 0% /run/user/1001
[leo@CentOS7 ~]$df | tr -s ' '|cut -d' ' -f5 |tr -dc "[0-9\n]"
0
1
1
0
48
0
0
字符范围
指定字符串1或字符串2的内容时,只能使用单字符或字符串范围或列表。
[a-z] a-z内的字符组成的字符串。
[A-Z] A-Z内的字符组成的字符串。
[0-9] 数字串。
[O*n] 表示字符O重复出现指定次数n。因此[O*2]匹配OO的字符串。
\NNN 八进制值的字符 NNN (1 to 3 为八进制值的字符)
\\反斜杠
\a Ctrl-G 铃声
\b Ctrl-H 退格符
\f Ctrl-L 走行换页
\n Ctrl-J 新行
\r Ctrl-M 回车
\t Ctrl-I tab键
\v Ctrl-X 水平制表符
CHAR1-CHAR2 :字符范围从 CHAR1 到 CHAR2 的指定,范围的指定以 ASCII 码的次序为基础,只能由小到大,不能由大到小。
[CHAR*] :这是 SET2 专用的设定,功能是重复指定的字符到与 SET1 相同长度为止
[CHAR*REPEAT] :这也是 SET2 专用的设定,功能是重复指定的字符到设定的 REPEAT 次数为止(REPEAT 的数字采 8 进位制计算,以 0 为开始)
[:alnum:] :所有字母字符与数字
[:alpha:] :所有字母字符
[:blank:] :所有水平空格
[:cntrl:] :所有控制字符
[:digit:] :所有数字
[:graph:] :所有可打印的字符(不包含空格符)
[:lower:] :所有小写字母
[:print:] :所有可打印的字符(包含空格符)
[:punct:] :所有标点字符
[:space:] :所有水平与垂直空格符
[:upper:] :所有大写字母
[:xdigit:] :所有 16 进位制的数字
[=CHAR=] :所有符合指定的字符(等号里的 CHAR,代表你可自订的字符)
paste命令
paste 合并多个文件同行号的列到一行
格式:paste [OPTION]... [FILE]...
[leo@CentOS7 ~]$cat text1
1
2
3
[leo@CentOS7 ~]$cat text2
a
b
c
d
e
f
[leo@CentOS7 ~]$paste text1 text2
1 a
2 b
3 c
d
e
f
[leo@CentOS7 ~]$paste -d "-" text2 text1
a-1
b-2
c-3
d-
e-
f-
[leo@CentOS7 ~]$paste -s text2 text1
a b c d e f
1 2 3