免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3594 | 回复: 17
打印 上一主题 下一主题

[文本处理] 帮我提取出开奖日期 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-02-25 20:56 |只看该作者 |倒序浏览
http://kaijiang.500.com/shtml/qxc/12084.shtml

我弄了半天没弄出来。呵呵。高手帮个忙


cat dd | grep "开奖日期"
                                        期</a> </span><span class="span_right">开奖日期:2012年7月20日 兑奖截止日期:2012年9月17日</span></td>
dongdong@ubuntu:~/myr/tmp/tt$


wget -O- http://kaijiang.500.com/shtml/qxc/12084.shtml |iconv -f GB2312 -t UTF8 | grep 开奖日期

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
2 [报告]
发表于 2013-02-25 21:12 |只看该作者
本帖最后由 关阴月飞 于 2013-02-25 21:30 编辑

期</a> </span><span class="span_right">开奖日期:2012年7月20日  兑奖截止日期:2012年9月17日</span></td>
如上内容:
是要提取"开奖日期" 这四个字??
  1. wget -O- http://kaijiang.500.com/shtml/qxc/12084.shtml |iconv -f GB2312 -t UTF8 | grep -o "开奖日期"
复制代码
还是提取:  2012年7月20日
  1. wget -O- http://kaijiang.500.com/shtml/qxc/12084.shtml |iconv -f GB2312 -t UTF8 |awk -F'[ :]+'  '/开奖日期/{print $4}'
复制代码

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
3 [报告]
发表于 2013-02-26 08:48 |只看该作者
回复 2# 关阴月飞


    提取 500W

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
4 [报告]
发表于 2013-02-26 09:58 |只看该作者
回复 3# blackold


    黑哥, 求银行卡帐号&&密码.................

论坛徽章:
0
5 [报告]
发表于 2013-02-26 10:00 |只看该作者
{:3_185:}我感觉好像感觉到了什么。。。

论坛徽章:
93
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:56CU十二周年纪念徽章
日期:2020-10-15 16:55:55CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2019-10-10 10:55:38季节之章:春
日期:2020-10-15 16:57:40ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17CU大牛徽章
日期:2014-02-21 14:22:52CU大牛徽章
日期:2014-03-13 10:40:30CU大牛徽章
日期:2014-02-21 14:23:15
6 [报告]
发表于 2013-02-26 11:35 |只看该作者
抽奖这事,唉,我一般中不了。

论坛徽章:
0
7 [报告]
发表于 2013-02-26 17:36 |只看该作者
关阴月飞 发表于 2013-02-25 21:12
期 开奖日期:2012年7月20日  兑奖截止日期:2012年9月17日
如上内容:
是要提取"开奖日期" 这四个字??还 ...


我要提取这个:还是提取:  2012年7月20日
但是你的方法提取不对呀
dongdong@ubuntu:~/myr/tmp/tt$ wget -O- http://kaijiang.500.com/shtml/qxc/12084.shtml |iconv -f GB2312 -t UTF8 |awk -F'[ :]+'  '/开奖日期/{print $4}'
--2013-02-26 17:36:15--  http://kaijiang.500.com/shtml/qxc/12084.shtml
正在解析主机 kaijiang.500.com (kaijiang.500.com)... 119.147.113.105, 119.147.113.106, 119.147.113.98, ...
正在连接 kaijiang.500.com (kaijiang.500.com)|119.147.113.105|:80... 已连接。
已发出 HTTP 请求,正在等待回应... 200 OK
长度: 未指定 [text/html]
正在保存至: “STDOUT”

    [   <=>                                 ] 88,446       154K/s   用时 0.6s  

2013-02-26 17:36:16 (154 KB/s) - 已写入标准输出 [88446]

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
8 [报告]
发表于 2013-02-26 18:02 |只看该作者
本帖最后由 关阴月飞 于 2013-02-26 18:02 编辑

回复 7# tyguaike


表示未见异常:
  1. [root@t]# wget -O- http://kaijiang.500.com/shtml/qxc/12084.shtml |iconv -f GB2312 -t UTF8 |awk -F'[ :]+'  '/开奖日期/{print $4}'
  2. --2013-02-26 18:01:14--  http://kaijiang.500.com/shtml/qxc/12084.shtml
  3. 正在解析主机 kaijiang.500.com... 119.147.113.117
  4. 正在连接 kaijiang.500.com|119.147.113.117|:80... 已连接。
  5. 已发出 HTTP 请求,正在等待回应... 200 OK
  6. 长度:未指定 [text/html]
  7. 正在保存至: “STDOUT”

  8.     [  <=>                                                                                                                                                                                               ] 88,446       341K/s   in 0.3s   

  9. 2013-02-26 18:01:15 (341 KB/s) - 已写入标准输出 [88446]

  10. 2012年7月20日
  11. [root@t]#
复制代码

论坛徽章:
0
9 [报告]
发表于 2013-02-26 18:28 |只看该作者
本帖最后由 tyguaike 于 2013-02-26 18:33 编辑

回复 8# 关阴月飞


    我改成print $5可以了

dongdong@ubuntu:~$ wget -O- http://kaijiang.500.com/shtml/qxc/12084.shtml |iconv -f GB2312 -t UTF8 |awk -F'[ :]+'  '/开奖日期/{print $5}'
--2013-02-26 18:27:05--  http://kaijiang.500.com/shtml/qxc/12084.shtml
正在解析主机 kaijiang.500.com (kaijiang.500.com)... 119.147.113.104, 119.147.113.105, 119.147.113.106, ...
正在连接 kaijiang.500.com (kaijiang.500.com)|119.147.113.104|:80... 已连接。
已发出 HTTP 请求,正在等待回应... 200 OK
长度: 未指定 [text/html]
正在保存至: “STDOUT”

    [  <=>                                  ] 88,446       334K/s   用时 0.3s  

2013-02-26 18:27:05 (334 KB/s) - 已写入标准输出 [88446]

2012年7月20日
dongdong@ubuntu:~$


***********这里面的"+"是什么意思
awk -F'[ :]+'

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
10 [报告]
发表于 2013-02-26 18:53 |只看该作者
回复 9# tyguaike

+   一或多


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP