跳到主要内容

文本剪切及合并-cut、tr、paste命令

cut命令

作用:通过选择列,提取文本的一部分。

格式:cut OPTTION [FILE]

常用参数选项:

cut最常用的选项是-d和-f的组合。

  • -f : 通过指定哪一个字段进行提取。cut命令使用“TAB”作为默认的字段分隔符。
  • -d : “TAB”是默认的分隔符,使用此选项可以更改为其他的分隔符。
  • --complement : 此选项用于排除所指定的字段。
  • --output-delimiter : 更改输出内容的分隔符。

使用说明:

cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。

如果不指定 File 参数,cut 命令将读取标准输入。必须指定 -b、-c 或 -f 标志之一。

分割方式

[study@localhost ~]$ cut -d ':' -f 1 /etc/passwd
root
bin
daemon
adm
lp
sync
....

提取多个字段:

[study@localhost ~]$ grep '/bin/bash' /etc/passwd| cut -d ':' -f 1,6
root:/root
bob:/home/bob
user01:/home/user01

选取字段范围:

[study@localhost ~]$ grep '/bin/bash' /etc/passwd|cut -d ':' -f 1-4,6,7
root:x:0:0:/root:/bin/bash
bob:x:1000:1001:/home/bob:/bin/bash
user01:x:1001:1002:/home/user01:/bin/bash

排除指定字段

# 输出除了第二字段以外的所有字段
[study@localhost ~]$ grep '/bin/bash' /etc/passwd|cut -d ':' --complement -f 2
root:0:0:root:/root:/bin/bash
bob:1000:1001::/home/bob:/bin/bash
user01:1001:1002::/home/user01:/bin/bash

改变输出内容的分隔符

输入分隔符-d选项指定;改变输出分隔符需使用--output-delimiter选项

[study@localhost ~]$cut -d ':' -f1,7 --output-delimiter=' ' /etc/passwd
root /bin/bash
bin /sbin/nologin
daemon /sbin/nologin
adm /sbin/nologin
lp /sbin/nologin
sync /bin/sync
...

cut命令的短缺

cut命令的一个限制是它不支持指定多个字符作为分隔符。多个空格被视为多个字段分隔符,使用tr命令可以将多个空格缩减为一个空格,再用cut处理。

tr命令

Linux tr 命令用于转换或删除文件中的字符。

tr 指令从标准输入设备读取数据,经过字符串转译后,将结果输出到标准输出设备。

tr [-cdst][--help][--version][第一字符集][第二字符集]  
tr [OPTION]…SET1[SET2]

参数说明:

  • -c, --complement:反选设定字符。也就是符合 SET1 的部份不做处理,不符合的剩余部份才进行转换
  • -d, --delete:删除指定字符
  • -s, --squeeze-repeats:缩减连续重复的字符成指定的单个字符
  • -t, --truncate-set1:削减 SET1 指定范围,使之与 SET2 设定长度相等
#例
[leo@CentOS7 ~]$df
Filesystem 1K-blocks Used Available Use% Mounted on
devtmpfs 929392 0 929392 0% /dev
tmpfs 941000 24 940976 1% /dev/shm
tmpfs 941000 1316 939684 1% /run
tmpfs 941000 0 941000 0% /sys/fs/cgroup
/dev/vda1 51473868 23253788 26022836 48% /
tmpfs 188200 0 188200 0% /run/user/0
tmpfs 188200 0 188200 0% /run/user/1001
[leo@CentOS7 ~]$df | tr -s ' '|cut -d' ' -f5 |tr -dc "[0-9\n]"

0
1
1
0
48
0
0

字符范围

指定字符串1或字符串2的内容时,只能使用单字符或字符串范围或列表。

[a-z] a-z内的字符组成的字符串。

[A-Z] A-Z内的字符组成的字符串。

[0-9] 数字串。

[O*n] 表示字符O重复出现指定次数n。因此[O*2]匹配OO的字符串。

\NNN 八进制值的字符 NNN (1 to 3 为八进制值的字符)

\\反斜杠

\a Ctrl-G 铃声

\b Ctrl-H 退格符

\f Ctrl-L 走行换页

\n Ctrl-J 新行

\r Ctrl-M 回车

\t Ctrl-I tab键

\v Ctrl-X 水平制表符

CHAR1-CHAR2 :字符范围从 CHAR1 到 CHAR2 的指定,范围的指定以 ASCII 码的次序为基础,只能由小到大,不能由大到小。

[CHAR*] :这是 SET2 专用的设定,功能是重复指定的字符到与 SET1 相同长度为止

[CHAR*REPEAT] :这也是 SET2 专用的设定,功能是重复指定的字符到设定的 REPEAT 次数为止(REPEAT 的数字采 8 进位制计算,以 0 为开始)

[:alnum:] :所有字母字符与数字

[:alpha:] :所有字母字符

[:blank:] :所有水平空格

[:cntrl:] :所有控制字符

[:digit:] :所有数字

[:graph:] :所有可打印的字符(不包含空格符)

[:lower:] :所有小写字母

[:print:] :所有可打印的字符(包含空格符)

[:punct:] :所有标点字符

[:space:] :所有水平与垂直空格符

[:upper:] :所有大写字母

[:xdigit:] :所有 16 进位制的数字

[=CHAR=] :所有符合指定的字符(等号里的 CHAR,代表你可自订的字符)

paste命令

paste 合并多个文件同行号的列到一行

格式:paste [OPTION]... [FILE]...

[leo@CentOS7 ~]$cat text1
1
2
3
[leo@CentOS7 ~]$cat text2
a
b
c
d
e
f
[leo@CentOS7 ~]$paste text1 text2
1 a
2 b
3 c
d
e
f
[leo@CentOS7 ~]$paste -d "-" text2 text1
a-1
b-2
c-3
d-
e-
f-
[leo@CentOS7 ~]$paste -s text2 text1
a b c d e f
1 2 3