免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 1533 | 回复: 8
打印 上一主题 下一主题

[文本处理] 取指定内容,求大神。 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2015-07-02 17:51 |只看该作者 |倒序浏览
文本内容
<div>【题文】已知圆锥的母线长为6cm,底面圆的半径为3cm,则此圆锥侧面展开图的圆心角是(  )<table name="optionsTable" cellpadding="0" cellspacing="0" width="100%"><tr><td width="25%">A.30°</td><td width="25%">B.60°</td><td width="25%">C.90°</td><td width="25%">D.180°</td></tr></table></div>

提取后内容
{"option" : "30°"},{"option" : "60°"},{"option" : "90°"},{"option" : "180°"}

论坛徽章:
780
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
2 [报告]
发表于 2015-07-02 17:58 |只看该作者
回复 1# shawnloong

可以用A B C D作关键词过滤吗?
   

论坛徽章:
0
3 [报告]
发表于 2015-07-02 18:15 |只看该作者
回复 2# Herowinter


    可以不过生成指定内容……

论坛徽章:
30
申猴
日期:2014-04-10 09:43:532015年亚洲杯纪念徽章
日期:2015-03-20 14:40:232015亚冠之阿尔纳斯尔
日期:2015-06-02 18:59:042015亚冠之阿尔希拉尔
日期:2015-06-30 15:22:572015亚冠之大阪钢巴
日期:2015-07-20 10:44:332015亚冠之阿尔纳斯尔
日期:2015-10-28 14:57:5215-16赛季CBA联赛之新疆
日期:2015-12-25 10:18:45黑曼巴
日期:2016-06-26 21:39:5315-16赛季CBA联赛之山西
日期:2016-07-25 21:54:2715-16赛季CBA联赛之北京
日期:2016-10-27 12:07:2315-16赛季CBA联赛之八一
日期:2017-07-07 16:39:0915-16赛季CBA联赛之吉林
日期:2017-09-04 12:14:43
4 [报告]
发表于 2015-07-02 18:27 |只看该作者
  1. awk -F '>|<' '{for(i=1;i<=NF;i++){if($i~/[A-Z]\./)
  2. {split($i,a,"."); if(a[1]=="A")  {printf "{\042option\042 : \042"a[2]"\042}"} else {printf ",{\042option\042 : \042"a[2]"\042}" }}}print ""}' file
  3. {"option" : "30°"},{"option" : "60°"},{"option" : "90°"},{"option" : "180°"}
复制代码
回复 1# shawnloong


   

论坛徽章:
780
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
5 [报告]
发表于 2015-07-02 18:31 |只看该作者
回复 3# shawnloong

这样应该可以,但我不喜欢自己的代码...
  1. grep -o "[ABCD]\.[^<]*" i.txt|xargs -n 4|sed 's/\w*/\"&\"/g;s/\./:/g;s/^/{/;s/$/}/;s/\s\+/},{/g'
复制代码

论坛徽章:
0
6 [报告]
发表于 2015-07-02 19:17 |只看该作者
回复 5# Herowinter


    [root@OLEASM1 ~]# grep -o "[ABCD]\.[^<]*" test.log|xargs -n 4|sed 's/\w*/\"&\"/g;s/\./:/g;s/^/{/;s/$/}/;s/\s\+/},{/g'
{""}
You have new mail in /var/spool/mail/root

论坛徽章:
780
金牛座
日期:2014-02-26 17:49:58水瓶座
日期:2014-02-26 18:10:15白羊座
日期:2014-04-15 19:29:52寅虎
日期:2014-04-17 19:43:21酉鸡
日期:2014-04-19 21:24:10子鼠
日期:2014-04-22 13:55:24卯兔
日期:2014-04-22 14:20:58亥猪
日期:2014-04-22 16:13:09狮子座
日期:2014-05-05 22:31:17摩羯座
日期:2014-05-06 10:32:53处女座
日期:2014-05-12 09:23:11子鼠
日期:2014-05-21 18:21:27
7 [报告]
发表于 2015-07-02 20:13 |只看该作者
回复 6# shawnloong

我在cygwin上试的可以,可能有什么不一样,
我的linux环境不支持中文字符。
   

论坛徽章:
11
射手座
日期:2015-08-11 16:10:26辰龙
日期:2015-08-11 16:11:11黑曼巴
日期:2016-04-26 16:58:40
8 [报告]
发表于 2015-07-02 20:25 |只看该作者
本帖最后由 hjfeng1988 于 2015-07-03 10:11 编辑
  1. sed -r 's/.*(A.*D.180°).*/\1/;s/<[^ABCD]*[ABCD]./"},{"option" : "/g;s/A./{"option" : "/;s/$/"}/' file
复制代码
上面的不够严谨
  1. sed -r 's/.*(A.*D[^<]*).*/\1/;s/<[^ABCD]*[ABCD]./"},{"option" : "/g;s/A./{"option" : "/;s/$/"}/' file
复制代码

论坛徽章:
20
卯兔
日期:2015-01-26 22:05:142015亚冠之萨济拖拉机
日期:2015-09-10 15:15:282015亚冠之阿尔希拉尔
日期:2015-09-25 17:37:53程序设计版块每日发帖之星
日期:2015-10-03 06:20:00程序设计版块每日发帖之星
日期:2015-12-09 06:20:00CU十四周年纪念徽章
日期:2015-12-17 09:07:15程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:34程序设计版块每日发帖之星
日期:2015-12-25 06:20:342015亚冠之广州富力
日期:2015-08-27 19:29:56每日论坛发贴之星
日期:2015-08-26 06:20:002015亚冠之阿尔希拉尔
日期:2015-05-18 17:26:27
9 [报告]
发表于 2015-07-02 21:07 |只看该作者
回复 1# shawnloong
  1. LANG=C awk '{s=$0;while(match(s,/[A-Z].([0-9]+°)/,a)){y=y?y",{\042option\042 : \042"a[1]"\042}":"{\042option\042 : \042"a[1]"\042}";s=substr(s,a[1,"start"]+a[1,"length"])}print y}' file
  2. perl -lne '$rs=$rs?$rs.",{\"option\" : \"$1\"}":"{\"option\" : \"$1\"}" while(/[A-Z].(\d+°)/g);print $rs' file
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP