Chinaunix

标题: 这个sed one-liner为什么不工作？ [打印本页]

作者: huxk 时间: 2012-08-27 11:07
标题: 这个sed one-liner为什么不工作？
Delete duplicate, nonconsecutive lines from a file.

sed -n 'G; s/\n/&&/; /^$[ -~]*\n$.*\n\1/d; s/\n//; h; P'

我用如下文件测试
foo
foo
foo
bar
foo
baz
但是全部输出来了。

我用l命令打印pattern space发现
foo\n\n$
foo\n\n$
foo
foo\n\nfoo\n$
foo\n\nfoo\n$
foo
foo\n\nfoo\nfoo\n$
foo\n\nfoo\nfoo\n$
foo
bar\n\nfoo\nfoo\nfoo\n$
bar\n\nfoo\nfoo\nfoo\n$
bar
foo\n\nbar\nfoo\nfoo\nfoo\n$
foo\n\nbar\nfoo\nfoo\nfoo\n$
foo
baz\n\nfoo\nbar\nfoo\nfoo\nfoo\n$
baz\n\nfoo\nbar\nfoo\nfoo\nfoo\n$
baz
foo\n\nbaz\nfoo\nbar\nfoo\nfoo\nfoo\n$
foo\n\nbaz\nfoo\nbar\nfoo\nfoo\nfoo\n$
foo

可以看出d命令木执行。也就是说正则并没匹配成功。
这是为什么呢？

我的系统是 fedora 17
Linux localhost 3.5.2-3.fc17.x86_64 #1 SMP Tue Aug 21 19:06:52 UTC 2012 x86_64 x86_64 x86_64 GNU/Linux

The capture group 1 is all the characters from space " " to "~" (which include all printable chars). The "[ -~]*" matches that. Replacing one "\n" with two was the key idea here. As "$[ -~]*\n$" is greedy (matches as much as possible), the double newline makes sure that it matches as little text as possible.

这句解释说\n让匹配模式不再贪婪了，但是为什么没匹配上呢？

作者: waker 时间: 2012-08-27 15:06
LANG=C sed -n 'G; s/\n/&&/; /^$[ -~]*\n$.*\n\1/d; s/\n//; h; P'

作者: huxk 时间: 2012-08-27 19:17

谢谢老大，原来是编码问题。

PS：老大的签名很内涵

欢迎光临 Chinaunix (http://bbs.chinaunix.net/)