免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1801 | 回复: 9
打印 上一主题 下一主题

[系统管理] 请教一个bash处理文本的问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-10-17 14:49 |只看该作者 |倒序浏览
                                        <td width="370"><a rel="nofollow" href="http://www.pcgames.com.cn" target="_blank">http://www.pcgames.com.cn</a></td>
                                        <td width="370"><a rel="nofollow" href="http://www.pchouse.com.cn" target="_blank">http://www.pchouse.com.cn</a></td>
                                        <td width="370"><a rel="nofollow" href="http://www.baomihua.com" target="_blank">http://www.baomihua.com</a></td>
                                        <td width="370"><a rel="nofollow" href="http://cn.dolphin.com/" target="_blank">http://cn.dolphin.com/</a></td>
                                        <td width="370"><a rel="nofollow" href="http://www.pcpop.com" target="_blank">http://www.pcpop.com</a></td>


这样一个文本。我想提取出pcgames.com.cn  dolphin.com  这样的域名。不知道怎么处理好。自己想了半天。先用grep -o取出整个域名。然后sed替换掉www。。还没弄好,感觉弄的很复杂。有没有号的办法?谢谢了~~~~

论坛徽章:
381
CU十二周年纪念徽章
日期:2014-01-04 22:46:58CU大牛徽章
日期:2013-03-13 15:32:35CU大牛徽章
日期:2013-03-13 15:38:15CU大牛徽章
日期:2013-03-13 15:38:52CU大牛徽章
日期:2013-03-14 14:08:55CU大牛徽章
日期:2013-04-17 11:17:19CU大牛徽章
日期:2013-04-17 11:17:32CU大牛徽章
日期:2013-04-17 11:17:37CU大牛徽章
日期:2013-04-17 11:17:42CU大牛徽章
日期:2013-04-17 11:17:47CU大牛徽章
日期:2013-04-17 11:17:52CU大牛徽章
日期:2013-04-17 11:17:56
2 [报告]
发表于 2013-10-17 14:56 |只看该作者
这个@Shell_HAT是强项,帮忙吧

论坛徽章:
0
3 [报告]
发表于 2013-10-17 14:59 |只看该作者
thanks,可以@啊,我没@出来。回复 2# chenyx


   

论坛徽章:
381
CU十二周年纪念徽章
日期:2014-01-04 22:46:58CU大牛徽章
日期:2013-03-13 15:32:35CU大牛徽章
日期:2013-03-13 15:38:15CU大牛徽章
日期:2013-03-13 15:38:52CU大牛徽章
日期:2013-03-14 14:08:55CU大牛徽章
日期:2013-04-17 11:17:19CU大牛徽章
日期:2013-04-17 11:17:32CU大牛徽章
日期:2013-04-17 11:17:37CU大牛徽章
日期:2013-04-17 11:17:42CU大牛徽章
日期:2013-04-17 11:17:47CU大牛徽章
日期:2013-04-17 11:17:52CU大牛徽章
日期:2013-04-17 11:17:56
4 [报告]
发表于 2013-10-17 15:00 |只看该作者
本帖最后由 chenyx 于 2013-10-17 15:01 编辑

嗯,可以@,在发帖/回帖的框上面有@按钮

论坛徽章:
4
技术图书徽章
日期:2013-09-23 10:22:37狮子座
日期:2013-10-15 23:31:54卯兔
日期:2013-11-11 17:33:15金牛座
日期:2013-11-15 17:25:28
5 [报告]
发表于 2013-10-17 15:06 |只看该作者

  1. sed -e 's#.*//\(.*\)</a.*#\1#' -e 's#www\.\|/##'  urfile
复制代码
shell版应该有更好的答案

论坛徽章:
0
6 [报告]
发表于 2013-10-17 15:12 |只看该作者
谢谢。及得之前都发shell版来着,那会发帖的时候没找到shell版。。。回复 5# nbrr


   

论坛徽章:
0
7 [报告]
发表于 2013-10-17 15:18 |只看该作者
我先学习一下这个
回复 5# nbrr


   

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
8 [报告]
发表于 2013-10-17 15:50 |只看该作者
本帖最后由 Shell_HAT 于 2013-10-17 15:52 编辑

回复 5# nbrr
  1. sed -r 's#.*http://[^\.]+.([^/<]+).*#\1#' urfile
复制代码

论坛徽章:
4
技术图书徽章
日期:2013-09-23 10:22:37狮子座
日期:2013-10-15 23:31:54卯兔
日期:2013-11-11 17:33:15金牛座
日期:2013-11-15 17:25:28
9 [报告]
发表于 2013-10-17 16:07 |只看该作者
回复 8# Shell_HAT


学习了
用 extended regular expressions
还有pattern matching的思路
谢谢

论坛徽章:
1
2015年辞旧岁徽章
日期:2015-03-03 16:54:15
10 [报告]
发表于 2013-10-18 11:27 |只看该作者
  1. awk -F'http://' '{a=index($3,".")+1;b=index($3,"<");print substr($3,a,b-a)}'  urls
复制代码
凑个热闹,来个awk的
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP