免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2359 | 回复: 10

[文本处理] 求过滤文本 [复制链接]

论坛徽章:
0
发表于 2015-12-28 16:21 |显示全部楼层
本帖最后由 mvplove123 于 2015-12-28 17:26 编辑

[2015-10-01 00:00:15] service=search&&costtime=207ms&&visitorIP=10.144.106.40&&reqid=_mobileengine_14436288154191220&&uvid=&&searchWord=医院&&rmiCosttime=79ms&&userAgent={SogouMap for Android}&&status=ok&&querystring=range=bound:1.3005697E7,4360016.0,1.3012847E7,4369178.0:0&submittime=1&what=keyword:医院&pageinfo=1,10&encrypt=1&level=13}&hasResult&city=济南
[2015-10-01 00:00:05] The qaSrchRult is matching the keyword...
[2015-10-01 00:00:05] The recommand candidate length is 1
[2015-10-01 00:00:05] candidate matching end.
[2015-10-01 00:00:05] The qaSrchRult matching end...

这个示例,要求匹配输出 searchWord=医院 city=济南 ,最好只输出 医院 济南,该如何写啊

论坛徽章:
39
双子座
日期:2014-08-06 17:37:19极客徽章
日期:2016-12-07 14:03:402017金鸡报晓
日期:2017-01-10 15:13:292017金鸡报晓
日期:2017-02-08 10:39:4215-16赛季CBA联赛之新疆
日期:2017-03-24 16:36:1915-16赛季CBA联赛之江苏
日期:2017-04-26 17:19:08黑曼巴
日期:2018-03-07 18:56:5615-16赛季CBA联赛之八一
日期:2018-03-09 10:44:1015-16赛季CBA联赛之江苏
日期:2018-03-12 15:12:1915-16赛季CBA联赛之青岛
日期:2018-03-16 09:13:0515-16赛季CBA联赛之山东
日期:2018-04-27 18:23:0515-16赛季CBA联赛之新疆
日期:2018-05-04 11:29:30
发表于 2015-12-28 16:57 |显示全部楼层
  1. grep -oP "(?<=searchWord=)\W+(?=&&)|(?<=hasResult&city=)\S+" o
复制代码

论坛徽章:
39
双子座
日期:2014-08-06 17:37:19极客徽章
日期:2016-12-07 14:03:402017金鸡报晓
日期:2017-01-10 15:13:292017金鸡报晓
日期:2017-02-08 10:39:4215-16赛季CBA联赛之新疆
日期:2017-03-24 16:36:1915-16赛季CBA联赛之江苏
日期:2017-04-26 17:19:08黑曼巴
日期:2018-03-07 18:56:5615-16赛季CBA联赛之八一
日期:2018-03-09 10:44:1015-16赛季CBA联赛之江苏
日期:2018-03-12 15:12:1915-16赛季CBA联赛之青岛
日期:2018-03-16 09:13:0515-16赛季CBA联赛之山东
日期:2018-04-27 18:23:0515-16赛季CBA联赛之新疆
日期:2018-05-04 11:29:30
发表于 2015-12-28 17:05 |显示全部楼层
  1. awk -F'(searchWord=)|(city=)|&&' '{print $7,$NF}' o
复制代码

论坛徽章:
0
发表于 2015-12-28 17:26 |显示全部楼层
我更新了下,这样就不好使了
o枫叶o飘零 发表于 2015-12-28 17:05

论坛徽章:
39
双子座
日期:2014-08-06 17:37:19极客徽章
日期:2016-12-07 14:03:402017金鸡报晓
日期:2017-01-10 15:13:292017金鸡报晓
日期:2017-02-08 10:39:4215-16赛季CBA联赛之新疆
日期:2017-03-24 16:36:1915-16赛季CBA联赛之江苏
日期:2017-04-26 17:19:08黑曼巴
日期:2018-03-07 18:56:5615-16赛季CBA联赛之八一
日期:2018-03-09 10:44:1015-16赛季CBA联赛之江苏
日期:2018-03-12 15:12:1915-16赛季CBA联赛之青岛
日期:2018-03-16 09:13:0515-16赛季CBA联赛之山东
日期:2018-04-27 18:23:0515-16赛季CBA联赛之新疆
日期:2018-05-04 11:29:30
发表于 2015-12-28 19:28 |显示全部楼层
回复 4# mvplove123


    awk -F'(searchWord=)|(city=)|&&' '/service=search/{print $7,$NF}' filename

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
发表于 2015-12-28 23:41 |显示全部楼层
回复 1# mvplove123

$ awk 'function m(s){return match($0,s"=([^&]+)",a)?a[1]:""}/searchWord/{print m("searchWord"),m("city")}' FILE
医院 济南

   

论坛徽章:
1
技术图书徽章
日期:2016-02-03 16:35:25
发表于 2015-12-29 00:29 |显示全部楼层
awk '/searchWord/{char=match($0,/searchWord/);a=substr($0,char,13);char2=match($0,/city/);b=substr($0,char2,13);print a,b}'

论坛徽章:
1
技术图书徽章
日期:2016-02-03 16:35:25
发表于 2015-12-29 00:35 |显示全部楼层
match($0,s"=([^&]+)",a)?a[1]:""
怎么理解这一句啊?求解
回复 6# jason680


   

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
发表于 2015-12-29 14:37 |显示全部楼层
回复 8# 陈卓文

三目运算符 ? :
  
return match($0,s"=([^&]+)",a)?a[1]:""
   
if(match($0,s"=([^&]+)",a))
  return a[1]
else
  return ""

论坛徽章:
1
技术图书徽章
日期:2016-02-03 16:35:25
发表于 2015-12-31 00:39 |显示全部楼层
match($0,s"=([^&]+)",a)?a[1]:""
这句匹配是怎么理解啊
回复 9# jason680


   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP