免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 3570 | 回复: 18

[文本处理] ini格式的文本处理 [复制链接]

论坛徽章:
22
处女座
日期:2014-10-11 13:33:292015亚冠之塔什干火车头
日期:2015-07-20 19:59:042015亚冠之塔什干火车头
日期:2015-07-26 10:59:31程序设计版块每日发帖之星
日期:2015-08-05 06:20:00每日论坛发贴之星
日期:2015-08-05 06:20:00程序设计版块每日发帖之星
日期:2015-08-07 06:20:00每日论坛发贴之星
日期:2015-08-07 06:20:002015亚冠之阿尔纳斯尔
日期:2015-10-01 15:23:28白银圣斗士
日期:2015-12-07 17:17:06操作系统版块每日发帖之星
日期:2015-12-27 06:20:002015亚冠之广州富力
日期:2015-07-08 15:48:31程序设计版块每日发帖之星
日期:2015-06-11 22:20:00
发表于 2017-07-13 17:38 |显示全部楼层
本帖最后由 聆雨淋夜 于 2017-07-14 11:52 编辑

大家好,有文本格式如下:
[DEFAULT]
key1=value1
key2=value2
key3=value3


[agent]
key1=value1


key2=value2


key3=value3




[database]
key1=value1
key2=value2

key3=value3


[redis]
key1=value1
key2=value2
key3=value3




文本开头没有空行,section之间的空行行数不定,最后一个section之后也有n行空行,section内部存在空行,想将section之间的空行压缩成一行,最后一个section之后的空行压缩成一行或者去掉都行,保留section内部的空行,最后处理成如下结果,求解决办法,感谢大家。

[DEFAULT]
key1=value1
key2=value2
key3=value3

[agent]
key1=value1


key2=value2


key3=value3

[database]
key1=value1
key2=value2

key3=value3

[redis]
key1=value1
key2=value2
key3=value3





论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
发表于 2017-07-13 17:53 |显示全部楼层
回复 1# 聆雨淋夜

$ awk -vRS="" '{print $0"\n"}' FILE
[DEFAULT]
key1=value1
key2=value2
key3=value3

[section1]
key1=value1
key2=value2
key3=value3

[section2]
key1=value1
key2=value2
key3=value3

[section3]
key1=value1
key2=value2
key3=value3



论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
发表于 2017-07-13 18:07 |显示全部楼层
  1. #PowerShell Codes:

  2. $n = 0
  3. $wkPath = "yourWorkPath:"
  4. foreach($line in Get-Content -Encoding UTF8 -Path $wkPath\f){
  5.     if($line -match "\A\s*\z"){
  6.         if($n++ -eq 0){
  7.             Write-Host
  8.         }
  9.         continue
  10.     }
  11.     Write-Host $line
  12.     $n = 0
  13. }
复制代码

论坛徽章:
50
15-16赛季CBA联赛之广夏
日期:2018-11-05 09:42:462015年亚冠纪念徽章
日期:2015-07-23 11:58:122015亚冠之广州富力
日期:2015-07-07 08:26:172015亚冠之塔什干棉农
日期:2015-06-29 09:08:072015年亚洲杯之伊朗
日期:2015-03-08 20:51:012015年迎新春徽章
日期:2015-03-04 09:58:11未羊
日期:2014-10-16 22:41:47处女座
日期:2014-10-16 15:33:33酉鸡
日期:2014-03-13 12:54:10巳蛇
日期:2014-03-10 14:39:052015亚冠之德黑兰石油
日期:2015-07-29 12:46:372015亚冠之德黑兰石油
日期:2015-08-07 12:54:11
发表于 2017-07-13 18:08 |显示全部楼层
  1. sed '/section/,${/^$/N;/\n$/D}'
复制代码

论坛徽章:
307
程序设计版块每周发帖之星
日期:2016-04-08 00:41:33操作系统版块每日发帖之星
日期:2015-09-02 06:20:00每日论坛发贴之星
日期:2015-09-02 06:20:00程序设计版块每日发帖之星
日期:2015-09-04 06:20:00每日论坛发贴之星
日期:2015-09-04 06:20:00每周论坛发贴之星
日期:2015-09-06 22:22:00程序设计版块每日发帖之星
日期:2015-09-09 06:20:00程序设计版块每日发帖之星
日期:2015-09-19 06:20:00程序设计版块每日发帖之星
日期:2015-09-20 06:20:00每日论坛发贴之星
日期:2015-09-20 06:20:00程序设计版块每日发帖之星
日期:2015-09-22 06:20:00程序设计版块每日发帖之星
日期:2015-09-24 06:20:00
发表于 2017-07-13 18:13 |显示全部楼层
  1. perl -0pe 's/^\s*$//mg' f
复制代码

论坛徽章:
39
辰龙
日期:2013-08-21 15:45:192015亚冠之广州富力
日期:2015-05-12 16:34:52亥猪
日期:2015-03-03 17:22:00申猴
日期:2015-03-03 17:21:37未羊
日期:2014-10-10 13:45:41戌狗
日期:2014-06-17 09:53:29巨蟹座
日期:2014-06-12 23:17:17双鱼座
日期:2014-06-10 12:42:44寅虎
日期:2014-06-09 12:52:172015亚冠之卡尔希纳萨夫
日期:2015-05-24 15:24:35黄金圣斗士
日期:2015-12-02 17:25:0815-16赛季CBA联赛之吉林
日期:2017-06-24 16:43:52
发表于 2017-07-13 18:22 |显示全部楼层
cat -s urfile

论坛徽章:
22
处女座
日期:2014-10-11 13:33:292015亚冠之塔什干火车头
日期:2015-07-20 19:59:042015亚冠之塔什干火车头
日期:2015-07-26 10:59:31程序设计版块每日发帖之星
日期:2015-08-05 06:20:00每日论坛发贴之星
日期:2015-08-05 06:20:00程序设计版块每日发帖之星
日期:2015-08-07 06:20:00每日论坛发贴之星
日期:2015-08-07 06:20:002015亚冠之阿尔纳斯尔
日期:2015-10-01 15:23:28白银圣斗士
日期:2015-12-07 17:17:06操作系统版块每日发帖之星
日期:2015-12-27 06:20:002015亚冠之广州富力
日期:2015-07-08 15:48:31程序设计版块每日发帖之星
日期:2015-06-11 22:20:00
发表于 2017-07-13 20:03 |显示全部楼层
先将各位亲的方法验证一下,然后回复大家。

论坛徽章:
22
处女座
日期:2014-10-11 13:33:292015亚冠之塔什干火车头
日期:2015-07-20 19:59:042015亚冠之塔什干火车头
日期:2015-07-26 10:59:31程序设计版块每日发帖之星
日期:2015-08-05 06:20:00每日论坛发贴之星
日期:2015-08-05 06:20:00程序设计版块每日发帖之星
日期:2015-08-07 06:20:00每日论坛发贴之星
日期:2015-08-07 06:20:002015亚冠之阿尔纳斯尔
日期:2015-10-01 15:23:28白银圣斗士
日期:2015-12-07 17:17:06操作系统版块每日发帖之星
日期:2015-12-27 06:20:002015亚冠之广州富力
日期:2015-07-08 15:48:31程序设计版块每日发帖之星
日期:2015-06-11 22:20:00
发表于 2017-07-13 20:05 |显示全部楼层
回复 4# WilliBhamlll

不好意思是我没有描述清楚,这里的section实际上是各种名称,已经修改。

论坛徽章:
2
15-16赛季CBA联赛之八一
日期:2017-07-06 14:20:4715-16赛季CBA联赛之上海
日期:2017-08-21 22:14:34
发表于 2017-07-14 00:09 |显示全部楼层
回复 2# jason680

  1. $ awk 'BEGIN{RS="";OFS=" % ";ORS="\n"}{$1=$1;print $0}' urfile
  2. [DEFAULT] % key1=value1 % key2=value2 % key3=value3
  3. [section1] % key1=value1 % key2=value2 % key3=value3
  4. [section2] % key1=value1 % key2=value2 % key3=value3
  5. [section3] % key1=value1 % key2=value2 % key3=value3
复制代码
这里有点没搞懂,将RS设为空之后,是整个文本就变成了一行了吗?
  1. awk 'BEGIN{RS="";OFS="\n";ORS="\n\n"}{$1=$1;print $0}' urfile
  2. [DEFAULT]
  3. key1=value1
  4. key2=value2
  5. key3=value3

  6. [section1]
  7. key1=value1
  8. key2=value2
  9. key3=value3

  10. [section2]
  11. key1=value1
  12. key2=value2
  13. key3=value3

  14. [section3]
  15. key1=value1
  16. key2=value2
  17. key3=value3

复制代码
这之后为什么又会变成
[DEFAULT]
key1=value1
key2=value2
key3=value3

这一块成了一行?
怎么理解的?

论坛徽章:
2
15-16赛季CBA联赛之八一
日期:2017-07-06 14:20:4715-16赛季CBA联赛之上海
日期:2017-08-21 22:14:34
发表于 2017-07-14 10:34 |显示全部楼层


找到tim大师的讲解了
http://bbs.chinaunix.net/forum.p ... amp;authorid=666268
如果RS被设置为空,那么awk会将连续的空行作为行分隔符,与RS设置成"\n\n+"有什么区别???
1、忽略文件开头和结尾的空行。且文件不以记录分隔符结束,即最后不是空行,会将最后一个记录的尾\n去掉
2、设置RT变量未空
3、影响FS变量
这个怎么理解?对于1、2两点,当作习题留给大家自己测试,3我们下节来讲。

总结下RS的3种情况:
1) 非空字符串
   以固定字符串作为行分隔符,同时设置变量RT为固定字符串
2) 正则表达式
   以正则表达式作为行分隔符,同时设置变量RT为正则表达式实际匹配到的字符串
3) 空字符
   以连续的空行作为行分隔符,如果FS为单个字符,会将\n强制加入到FS变量中

理解了RS,再来理解ORS就简单了。RS是awk读取文件时的行分隔符,ORS则是awk输出时的行结束符。
更简单的讲,就是awk在输出时,会在每行记录后面增加一个ORS变量所设定的值。
ORS的值只能设定为字符串,默认情况下,ORS的值是\n

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP