免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3209 | 回复: 17

[文本处理] 帮我提取出开奖日期 [复制链接]

论坛徽章:
0
发表于 2013-02-25 20:56 |显示全部楼层
http://kaijiang.500.com/shtml/qxc/12084.shtml

我弄了半天没弄出来。呵呵。高手帮个忙


cat dd | grep "开奖日期"
                                        期</a> </span><span class="span_right">开奖日期:2012年7月20日 兑奖截止日期:2012年9月17日</span></td>
dongdong@ubuntu:~/myr/tmp/tt$


wget -O- http://kaijiang.500.com/shtml/qxc/12084.shtml |iconv -f GB2312 -t UTF8 | grep 开奖日期

论坛徽章:
38
辰龙
日期:2013-08-21 15:45:19寅虎
日期:2014-06-09 12:52:17双鱼座
日期:2014-06-10 12:42:44巨蟹座
日期:2014-06-12 23:17:17戌狗
日期:2014-06-17 09:53:29未羊
日期:2014-10-10 13:45:41申猴
日期:2015-03-03 17:21:37亥猪
日期:2015-03-03 17:22:002015亚冠之广州富力
日期:2015-05-12 16:34:522015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:08平安夜徽章
日期:2015-12-26 00:06:30
发表于 2013-02-25 21:12 |显示全部楼层
本帖最后由 关阴月飞 于 2013-02-25 21:30 编辑

期</a> </span><span class="span_right">开奖日期:2012年7月20日  兑奖截止日期:2012年9月17日</span></td>
如上内容:
是要提取"开奖日期" 这四个字??
  1. wget -O- http://kaijiang.500.com/shtml/qxc/12084.shtml |iconv -f GB2312 -t UTF8 | grep -o "开奖日期"
复制代码
还是提取:  2012年7月20日
  1. wget -O- http://kaijiang.500.com/shtml/qxc/12084.shtml |iconv -f GB2312 -t UTF8 |awk -F'[ :]+'  '/开奖日期/{print $4}'
复制代码

论坛徽章:
5
2015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015年亚洲杯之朝鲜
日期:2015-03-13 22:47:33IT运维版块每日发帖之星
日期:2016-01-09 06:20:00IT运维版块每周发帖之星
日期:2016-03-07 16:27:44
发表于 2013-02-26 08:48 |显示全部楼层
回复 2# 关阴月飞


    提取 500W

论坛徽章:
38
辰龙
日期:2013-08-21 15:45:19寅虎
日期:2014-06-09 12:52:17双鱼座
日期:2014-06-10 12:42:44巨蟹座
日期:2014-06-12 23:17:17戌狗
日期:2014-06-17 09:53:29未羊
日期:2014-10-10 13:45:41申猴
日期:2015-03-03 17:21:37亥猪
日期:2015-03-03 17:22:002015亚冠之广州富力
日期:2015-05-12 16:34:522015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:08平安夜徽章
日期:2015-12-26 00:06:30
发表于 2013-02-26 09:58 |显示全部楼层
回复 3# blackold


    黑哥, 求银行卡帐号&&密码.................

论坛徽章:
0
发表于 2013-02-26 10:00 |显示全部楼层
{:3_185:}我感觉好像感觉到了什么。。。

论坛徽章:
96
2015年辞旧岁徽章
日期:2019-10-10 10:51:15CU大牛徽章
日期:2014-02-21 14:21:5619周年集字徽章-19
日期:2019-10-10 10:50:16CU大牛徽章
日期:2014-02-21 14:22:07羊年新春福章
日期:2019-10-10 10:51:39CU大牛徽章
日期:2015-02-28 17:45:3419周年集字徽章-周
日期:2019-10-10 10:50:2219周年集字徽章-年
日期:2019-10-10 10:50:2419周年集字徽章-庆
日期:2019-10-10 10:50:26CU大牛徽章
日期:2019-10-10 10:55:38ChinaUnix元老
日期:2019-10-10 10:54:42季节之章:冬
日期:2019-10-10 10:57:17
发表于 2013-02-26 11:35 |显示全部楼层
抽奖这事,唉,我一般中不了。

论坛徽章:
0
发表于 2013-02-26 17:36 |显示全部楼层
关阴月飞 发表于 2013-02-25 21:12
期 开奖日期:2012年7月20日  兑奖截止日期:2012年9月17日
如上内容:
是要提取"开奖日期" 这四个字??还 ...


我要提取这个:还是提取:  2012年7月20日
但是你的方法提取不对呀
dongdong@ubuntu:~/myr/tmp/tt$ wget -O- http://kaijiang.500.com/shtml/qxc/12084.shtml |iconv -f GB2312 -t UTF8 |awk -F'[ :]+'  '/开奖日期/{print $4}'
--2013-02-26 17:36:15--  http://kaijiang.500.com/shtml/qxc/12084.shtml
正在解析主机 kaijiang.500.com (kaijiang.500.com)... 119.147.113.105, 119.147.113.106, 119.147.113.98, ...
正在连接 kaijiang.500.com (kaijiang.500.com)|119.147.113.105|:80... 已连接。
已发出 HTTP 请求,正在等待回应... 200 OK
长度: 未指定 [text/html]
正在保存至: “STDOUT”

    [   <=>                                 ] 88,446       154K/s   用时 0.6s  

2013-02-26 17:36:16 (154 KB/s) - 已写入标准输出 [88446]

论坛徽章:
38
辰龙
日期:2013-08-21 15:45:19寅虎
日期:2014-06-09 12:52:17双鱼座
日期:2014-06-10 12:42:44巨蟹座
日期:2014-06-12 23:17:17戌狗
日期:2014-06-17 09:53:29未羊
日期:2014-10-10 13:45:41申猴
日期:2015-03-03 17:21:37亥猪
日期:2015-03-03 17:22:002015亚冠之广州富力
日期:2015-05-12 16:34:522015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:08平安夜徽章
日期:2015-12-26 00:06:30
发表于 2013-02-26 18:02 |显示全部楼层
本帖最后由 关阴月飞 于 2013-02-26 18:02 编辑

回复 7# tyguaike


表示未见异常:
  1. [root@t]# wget -O- http://kaijiang.500.com/shtml/qxc/12084.shtml |iconv -f GB2312 -t UTF8 |awk -F'[ :]+'  '/开奖日期/{print $4}'
  2. --2013-02-26 18:01:14--  http://kaijiang.500.com/shtml/qxc/12084.shtml
  3. 正在解析主机 kaijiang.500.com... 119.147.113.117
  4. 正在连接 kaijiang.500.com|119.147.113.117|:80... 已连接。
  5. 已发出 HTTP 请求,正在等待回应... 200 OK
  6. 长度:未指定 [text/html]
  7. 正在保存至: “STDOUT”

  8.     [  <=>                                                                                                                                                                                               ] 88,446       341K/s   in 0.3s   

  9. 2013-02-26 18:01:15 (341 KB/s) - 已写入标准输出 [88446]

  10. 2012年7月20日
  11. [root@t]#
复制代码

论坛徽章:
0
发表于 2013-02-26 18:28 |显示全部楼层
本帖最后由 tyguaike 于 2013-02-26 18:33 编辑

回复 8# 关阴月飞


    我改成print $5可以了

dongdong@ubuntu:~$ wget -O- http://kaijiang.500.com/shtml/qxc/12084.shtml |iconv -f GB2312 -t UTF8 |awk -F'[ :]+'  '/开奖日期/{print $5}'
--2013-02-26 18:27:05--  http://kaijiang.500.com/shtml/qxc/12084.shtml
正在解析主机 kaijiang.500.com (kaijiang.500.com)... 119.147.113.104, 119.147.113.105, 119.147.113.106, ...
正在连接 kaijiang.500.com (kaijiang.500.com)|119.147.113.104|:80... 已连接。
已发出 HTTP 请求,正在等待回应... 200 OK
长度: 未指定 [text/html]
正在保存至: “STDOUT”

    [  <=>                                  ] 88,446       334K/s   用时 0.3s  

2013-02-26 18:27:05 (334 KB/s) - 已写入标准输出 [88446]

2012年7月20日
dongdong@ubuntu:~$


***********这里面的"+"是什么意思
awk -F'[ :]+'

论坛徽章:
38
辰龙
日期:2013-08-21 15:45:19寅虎
日期:2014-06-09 12:52:17双鱼座
日期:2014-06-10 12:42:44巨蟹座
日期:2014-06-12 23:17:17戌狗
日期:2014-06-17 09:53:29未羊
日期:2014-10-10 13:45:41申猴
日期:2015-03-03 17:21:37亥猪
日期:2015-03-03 17:22:002015亚冠之广州富力
日期:2015-05-12 16:34:522015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:08平安夜徽章
日期:2015-12-26 00:06:30
发表于 2013-02-26 18:53 |显示全部楼层
回复 9# tyguaike

+   一或多


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

SACC2019中国系统架构师大会

【数字转型 架构演进】SACC2019中国系统架构师大会,8.5折限时优惠重磅来袭!
2019年10月31日~11月2日第11届中国系统架构师大会(SACC2019)将在北京隆重召开。四大主线并行的演讲模式,1个主会场、20个技术专场、超千人参与的会议规模,100+来自互联网、金融、制造业、电商等领域的嘉宾阵容,将为广大参会者提供一场最具价值的技术交流盛会。

限时8.5折扣期:2019年9月30日前


----------------------------------------

大会官网>>
  

北京盛拓优讯信息技术有限公司. 版权所有 16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122
中国互联网协会会员  联系我们:huangweiwei@it168.com
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP