4.1 排序文本
4.1.1 行的排序
未提供命令行選項時,整個記錄會根據(jù)當前l(fā)ocale所定義的次序排序。
在傳統(tǒng)的C locale中,也就是ASCII順序。
4.1.2 以字段排序
-k選項的后面接著的是一個字段編號,或者是一對數(shù)字。
每個編號后面都可以接一個點號的字符位置,或修飾符字母。
如果僅指定一個字段編號,則排序鍵值會自該字段的起始處開始,
一直繼續(xù)到記錄的結(jié)尾(而非字段的結(jié)尾)。
如果給的是一對用逗號隔開的字段數(shù)字,則排序鍵值將由第一個字段值的起始處開始,
結(jié)束于第二個字段值的結(jié)尾。使用點號表示字符位置。
-k2.4, 5.6指的是從第二個字段的第四個字符開始比較,一直比到第五個字段的第六個字符。
$ sort -t: -k1,1 /etc/passwd 以用戶名稱排序
bin:x:1:1:bin:/bin:/sbin/nologin
chico:x:12501:1000:Chico Marx:/home/chico:/bin/bash
harpo:x:12502:1000:Harpo Marx:/home/harpo:/bin/ksh
...
$ sort -t: -k3,3nr /etc/passwd 反省UID排序
或-k3nr,3或-k3,3 -n -r都可以。
4.1.3 文本塊的排序
有時需要對多行記錄組合而成的數(shù)據(jù)排序。以地址清單為例:
$ cat my-friends
# SORTKEY: Schlo, Hans Jurgen
Hans Jurgen Schlo
Unter den Linden 78
D-10117 Berlin
Germany
# SORTKEY: Jones, Adrian
...
技巧是:利用awk識別段落間隔,在每個地址內(nèi)暫時使用一個未用過的字符取代分行。
sort看到的行就會變成這樣:
# SORTKEY: Schlo, Hans Jurgen^ZHans Jurgen Schlo^ZUnter den Linden 78^Z...
cat my-friends | 讀取地址文件
awk -v RS=" " '{ gsub("\n", "^Z"); print }' | 轉(zhuǎn)換地址為單行
sort -f | 排序地址數(shù)據(jù),忽略大小寫
awk -v ORS="\n\n" '{ gsub("^Z", "\n"); print }' | 恢復行結(jié)構(gòu)
grep -v '# SORTKEY' 刪除標記行
1. 函數(shù)gsub()為全局性替換(global substitution),類似sed下的s/x/y/g結(jié)構(gòu)。
2. RS變量時輸入數(shù)據(jù)的記錄分隔器(Record Separator)。
通常輸入數(shù)據(jù)以換行隔開,使每行成為單個記錄。
RS=" "是一個特殊用法,指的是記錄以空行隔開。
3. ORS是輸出記錄分隔器。
注:'{ action }'是對每個字段的操作,而RS,ORS都是對記錄的設定。
4.1.5 sort的穩(wěn)定性
sort并不穩(wěn)定。
4.2 刪除重復
sort -u是依據(jù)匹配的鍵值進行消除操作,而非匹配的記錄。
uniq有3個好用選項:
-c在每個輸出行之前加上該行重復的次數(shù)。
-d則用于僅顯示重復的行。
-u僅顯示未重復的行。
4.3 重新格式化段落
fwt -w 30
4.4 計算行數(shù)、字數(shù)以及字符數(shù)
wc的默認輸出是一行報告,包括行數(shù)、字數(shù)以及字節(jié)數(shù)。
可用選項:-c(字節(jié)數(shù))、-l(行數(shù))、-w(字數(shù))。
標簽:???/a> 宿遷 泰安 臨滄 昌都 營口 西寧 南京
巨人網(wǎng)絡通訊聲明:本文標題《Shell腳本學習指南之文本處理工具》,本文關鍵詞 Shell,腳本,學習指南,之,;如發(fā)現(xiàn)本文內(nèi)容存在版權(quán)問題,煩請?zhí)峁┫嚓P信息告之我們,我們將及時溝通與處理。本站內(nèi)容系統(tǒng)采集于網(wǎng)絡,涉及言論、版權(quán)與本站無關。上一篇:shell中冒號的特殊用法分享