免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2803 | 回复: 14
打印 上一主题 下一主题

[文本处理] sed替换文本中的行号 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-10-27 11:08 |只看该作者 |倒序浏览
本帖最后由 lnzfm 于 2014-10-27 13:47 编辑

从网页里复制下来的代码经常是带着行号,而且多行合并成了一行,例子如下:
1. this is line1 2. this is line2 3. this is line3 4. this is line4 5. this is line5 6. this is line6 7. this is line7 8. this is line8 9. this is line9 10.this is line10
求各位兄弟姐妹帮忙将连续数字和点的字符串用sed替换成换行符

1. this is line1
2. this is line2
3. this is line3
4. this is line4

不会用sed,真拙急啊

很抱歉,上面我发的预期结果写错了,我重新编辑了贴子,希望得到的输出结果以下面结果为准:
this is line1
this is line2
this is line3
this is line4

谢谢,参与回复帖子的同学,请继续

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
2 [报告]
发表于 2014-10-27 11:13 |只看该作者
建议在浏览器里面查看网页源代码,这样复制就不会合并到一行了。

论坛徽章:
23
15-16赛季CBA联赛之吉林
日期:2017-12-21 16:39:27白羊座
日期:2014-10-27 11:14:37申猴
日期:2014-10-23 08:36:23金牛座
日期:2014-09-30 08:26:49午马
日期:2014-09-29 09:40:16射手座
日期:2014-11-25 08:56:112015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:49:0315-16赛季CBA联赛之山东
日期:2017-12-21 16:39:1915-16赛季CBA联赛之广东
日期:2016-01-19 13:33:372015亚冠之山东鲁能
日期:2015-10-13 09:39:062015亚冠之西悉尼流浪者
日期:2015-09-21 08:27:57
3 [报告]
发表于 2014-10-27 11:15 |只看该作者
回复 1# lnzfm


try:
  1. sed -r 's/ ([0-9]+\.)/\n\1/g' file
复制代码

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
4 [报告]
发表于 2014-10-27 11:16 |只看该作者
  1. [root@localhost ~]# cat i
  2. 1. this is line1 2. this is line2 3. this is line3 4. this is line4 5. this is line5 6. this is line6 7. this is line7 8. this is line8 9. this is line9 10.this is line10
  3. [root@localhost ~]# sed -r 's/ ([0-9]+\.)/\n\1/g' i
  4. 1. this is line1
  5. 2. this is line2
  6. 3. this is line3
  7. 4. this is line4
  8. 5. this is line5
  9. 6. this is line6
  10. 7. this is line7
  11. 8. this is line8
  12. 9. this is line9
  13. 10.this is line10
  14. [root@localhost ~]#
复制代码

论坛徽章:
24
申猴
日期:2014-10-10 15:56:39射手座
日期:2014-10-10 15:57:18黑曼巴
日期:2018-05-14 11:05:122016科比退役纪念章
日期:2018-05-14 11:05:0715-16赛季CBA联赛之北控
日期:2018-05-14 11:05:0015-16赛季CBA联赛之江苏
日期:2017-02-27 18:11:0715-16赛季CBA联赛之上海
日期:2018-08-15 09:48:5415-16赛季CBA联赛之佛山
日期:2018-07-20 17:14:2315-16赛季CBA联赛之佛山
日期:2019-09-10 18:08:4615-16赛季CBA联赛之山西
日期:2020-03-26 09:40:5115-16赛季CBA联赛之佛山
日期:2020-05-08 09:03:54
5 [报告]
发表于 2014-10-27 11:51 |只看该作者
sed -r 's/[0-9]+\s/&\n/g' file

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
6 [报告]
发表于 2014-10-27 11:54 |只看该作者
回复 5# chengchow

真实文本不一定是数字空格结尾呢
   

论坛徽章:
6
羊年新春福章
日期:2015-03-03 17:16:28双子座
日期:2015-03-03 17:16:56巳蛇
日期:2015-03-03 17:17:2415-16赛季CBA联赛之福建
日期:2016-03-11 09:05:00黑曼巴
日期:2016-07-07 16:58:1215-16赛季CBA联赛之吉林
日期:2016-11-14 09:23:07
7 [报告]
发表于 2014-10-27 12:03 |只看该作者
  1. echo "1. this is line1 2. this is line2 3. this is line3 4. this is line4 5. this is line5 6. this is line6 7. this is line7 8. this is line8 9. this is line9 10.this is line10"|sed -r 's/[0-9]+\./\n&/g'
复制代码

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
8 [报告]
发表于 2014-10-27 12:45 |只看该作者
回复 6# yestreenstars


    万一第一行的就是是 2.

论坛徽章:
0
9 [报告]
发表于 2014-10-27 13:09 |只看该作者
很抱歉,我把期望的结果写错了,希望得到的输出结果里应该是去掉开头的数字和小数点的,如下:
this is line1
this is line2
this is line3
this is line4

论坛徽章:
33
ChinaUnix元老
日期:2015-02-02 08:55:39CU十四周年纪念徽章
日期:2019-08-20 08:30:3720周年集字徽章-周	
日期:2020-10-28 14:13:3020周年集字徽章-20	
日期:2020-10-28 14:04:3019周年集字徽章-CU
日期:2019-09-08 23:26:2519周年集字徽章-19
日期:2019-08-27 13:31:262016科比退役纪念章
日期:2022-04-24 14:33:24
10 [报告]
发表于 2014-10-27 13:27 |只看该作者
回复 9# lnzfm
  1. sed -r 's/([0-9]+\.) */\n/g' a.txt
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP