忘记密码   免费注册 查看新帖 | 论坛精华区

ChinaUnix.net

  平台 论坛 博客 认证专区 大话IT HPC论坛 徽章 文库 沙龙 自测 下载 频道自动化运维 虚拟化 储存备份 C/C++ PHP MySQL 嵌入式 Linux系统
12下一页
最近访问板块 发新帖
查看: 2263 | 回复: 15

[文本处理] 文本处理保存为指定格式csv文件 [复制链接]

论坛徽章:
1
黑曼巴
日期:2017-11-27 16:06:48
发表于 2017-11-27 13:50 |显示全部楼层
本帖最后由 shouyu924 于 2017-11-27 14:09 编辑

[文本处理求助] 想很长时间无法处理,往大神指教,把文本处理成指定格式  csv文件,方便查看


NewLines:varlib
aa:bb:cc:ff:0
xx:yy:ww:123.com:1
NewLines:testok
aa:bb:cc:ff:0
de:be:cd:fg:0
xx:yy:ww:123.com:1
.
.
.
.
有很多类似的行,每段只有NewLines固定,其他内容都不固定


显示结果

显示结果

论坛徽章:
121
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07巳蛇
日期:2014-05-09 16:43:18巨蟹座
日期:2014-10-23 17:48:38子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59
发表于 2017-11-27 14:53 |显示全部楼层
回复 1# shouyu924

$ awk '/^NewLines:/{print;next}{print "\t"$0}' FILE
NewLines:varlib
    aa:bb:cc:ff:0
    xx:yy:ww:123.com:1
NewLines:testok
    aa:bb:cc:ff:0
    de:be:cd:fg:0
    xx:yy:ww:123.com:1


Note: don't forget the file format issue with dos2unix and unix2dos

论坛徽章:
1
黑曼巴
日期:2017-11-27 16:06:48
发表于 2017-11-27 15:13 |显示全部楼层
回复 2# jason680

awk '/^NewLines:/{print;next}{print "\t"$0}'  ab.txt > ab.csv
结果在ab.csv中并没有分列。


wenben2.png

论坛徽章:
15
程序设计版块每日发帖之星
日期:2015-10-11 06:20:0015-16赛季CBA联赛之青岛
日期:2017-06-26 18:30:0315-16赛季CBA联赛之新疆
日期:2017-04-12 22:55:4715-16赛季CBA联赛之山东
日期:2016-05-28 18:18:5615-16赛季CBA联赛之新疆
日期:2016-05-07 05:05:3215-16赛季CBA联赛之八一
日期:2016-03-14 12:32:06IT运维版块每日发帖之星
日期:2016-02-27 06:20:0015-16赛季CBA联赛之深圳
日期:2016-01-31 10:37:3615-16赛季CBA联赛之同曦
日期:2016-01-24 17:51:44狮子座
日期:2016-01-11 11:25:34酉鸡
日期:2016-01-11 11:24:2415-16赛季CBA联赛之北控
日期:2016-01-02 13:16:52
发表于 2017-11-27 15:21 |显示全部楼层
本帖最后由 baby_神 于 2017-11-27 15:28 编辑

回复 3# shouyu924
  1. awk '/^NewLines:/{printf $0;next}{print "\t"$0}' a   
  2. NewLines:varlib aa:bb:cc:ff:0
  3.         xx:yy:ww:123.com:1
  4. NewLines:testok aa:bb:cc:ff:0
  5.         de:be:cd:fg:0
  6.         xx:yy:ww:123.com:1
复制代码
然后把结果复制到excel,然后点击数据分列,选择空格和tab就行了,不要直接追加到csv

论坛徽章:
1
黑曼巴
日期:2017-11-27 16:06:48
发表于 2017-11-27 15:33 |显示全部楼层
回复 4# baby_神

是的,原来这样,果然可以。

我现在有很多这样的文件,如果一个一个文件执行,再复制,太麻烦了。有其他方式处理的么?

论坛徽章:
32
荣誉会员
日期:2011-11-23 16:44:17射手座
日期:2014-09-03 16:01:17天蝎座
日期:2014-08-21 17:18:48丑牛
日期:2014-08-29 16:06:45天秤座
日期:2014-08-29 10:12:18天秤座
日期:2014-08-26 16:18:20双子座
日期:2014-07-30 11:38:27寅虎
日期:2014-08-04 10:24:12IT运维版块每日发帖之星
日期:2016-04-17 06:23:27操作系统版块每日发帖之星
日期:2016-04-18 06:20:00IT运维版块每日发帖之星
日期:2016-04-24 06:20:0015-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59
发表于 2017-11-27 15:47 |显示全部楼层
回复 5# shouyu924
你知道什么是 csv格式么?

论坛徽章:
1
黑曼巴
日期:2017-11-27 16:06:48
发表于 2017-11-27 16:06 |显示全部楼层
回复 6# q1208c

我只要在excel打开,得到指定的内容即可,不要了解csv是什么不?

论坛徽章:
0
发表于 2017-11-27 16:08 |显示全部楼层
本帖最后由 本友会机友会摄友会 于 2017-11-29 11:29 编辑

我的思路和2楼类似,但是2楼没有说到点上。
把行首 不含 【NewLines】的行,查找替换,前面加上【"",】然后。导入csv,然后在导出即可。
powershell

  1. $文件 = Get-Content a:\pscode\temp260\aaa.txt
  2. for ($i = 0;$i -lt $文件.length ;$i++)
  3. {
  4.         if ($文件[$i] -notmatch "^NewLines")
  5.         {
  6.                 $文件[$i] = '"",' + $文件[$i]
  7.         }
  8. }
  9. Set-Content a:\pscode\temp260\aaa2.txt -Value $("zd1,zd2") -Encoding Unicode
  10. Add-Content a:\pscode\temp260\aaa2.txt -Value $文件 -Encoding Unicode
  11. $csv = import-Csv a:\pscode\temp260\aaa2.txt
  12. $csv | Export-Csv a:\pscode\temp260\aaa2.csv -NoTypeInformation
复制代码

论坛徽章:
121
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07巳蛇
日期:2014-05-09 16:43:18巨蟹座
日期:2014-10-23 17:48:38子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59
发表于 2017-11-27 16:25 |显示全部楼层
回复 3# shouyu924

try this way
$ awk '/^NewLines:/{print;next}{print ","$0}' ab.txt > ab.csv

$ awk '/^NewLines:/{print;next}{print "\t"$0}' ab.txt > ab.csv

Note: these way are no issue on LibreOffice in my system, Ubuntu 16.04 LTS


ab.csv

ab.csv

论坛徽章:
1
黑曼巴
日期:2017-11-27 16:06:48
发表于 2017-11-27 16:39 |显示全部楼层
回复 9# jason680

多谢,多谢。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号 北京市公安局海淀分局网监中心备案编号:11010802020122
广播电视节目制作经营许可证(京) 字第1234号 中国互联网协会会员  联系我们:
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP