免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3471 | 回复: 6
打印 上一主题 下一主题

[文本处理] wc -l统计数据和实际数据有误差?求指导 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-11-15 14:13 |只看该作者 |倒序浏览
我一个文件使用wc -l统计后结果不一致

oracle@linux:~/> wc -l 00010.txt
115657 00010.txt

但是实际我这个00010.txt文件里有115658条记录
vi 打开这个文件到最后一行,显示下行号是下面的数据

115656 2348101250202
115657 2348101250274
115658 2348101250427
:set nu      


然后又执行了下虾米操作
oracle@linux:~/> vi -b 00010.txt
然后在执行了下
set fileencoding=iso-8859-1


115656 2348101250202
115657 2348101250274
115658 2348101250427
:set fileencoding=iso-8859-1


保存退出后再用wc -l统计下这个文件
oracle@linux:~/> wc -l 00010.txt
115658 00010.txt

请教下这个是问什么呢?文件格式问题?还是这个文件要转换成什么BOM之类的。
不太了解请大神们指点下。。

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
2 [报告]
发表于 2013-11-15 14:21 |只看该作者
目测你这个文件是从Windows系统复制过来的,所以最后一行没有换行~用dos2unix命令转化一下即可~
然后又执行了下虾米操作
炒菜呢?

论坛徽章:
145
技术图书徽章
日期:2013-10-01 15:32:13戌狗
日期:2013-10-25 13:31:35金牛座
日期:2013-11-04 16:22:07子鼠
日期:2013-11-18 18:48:57白羊座
日期:2013-11-29 10:09:11狮子座
日期:2013-12-12 09:57:42白羊座
日期:2013-12-24 16:24:46辰龙
日期:2014-01-08 15:26:12技术图书徽章
日期:2014-01-17 13:24:40巳蛇
日期:2014-02-18 14:32:59未羊
日期:2014-02-20 14:12:13白羊座
日期:2014-02-26 12:06:59
3 [报告]
发表于 2013-11-15 14:24 |只看该作者
本帖最后由 jason680 于 2013-11-15 14:25 编辑

回复 1# gumuzhiyu

It seems some bug in wc when last line didn't have "enter" charactor
you can try awk that didn't have this issue

# echo 123 | wc -l
1

# echo -n 123 | wc -l
0

# echo -n 123 | awk 'END{print NF}'
1

# echo 123 | awk 'END{print NF}'
1

   

论坛徽章:
0
4 [报告]
发表于 2013-11-15 14:32 |只看该作者
回复 2# yestreenstars

我dos2unix 了也没用。。


   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
5 [报告]
发表于 2013-11-15 14:36 |只看该作者
  1. cat -A 00010.txt | tail
复制代码
你运行一下这个命令,然后把结果发出来看看~

论坛徽章:
0
6 [报告]
发表于 2013-11-15 14:42 |只看该作者
回复 5# yestreenstars
我的源文件让我改过了,然后我又找了个有这个问题的文件执行了下你给的命令

20131112033213|0|$
20131112033214|0|$
20131112033216|0|$
20131112033216|0|$
20131112033217|0|oracle@linux:

最后一个没有$


   

论坛徽章:
32
处女座
日期:2013-11-20 23:41:20双子座
日期:2014-06-11 17:20:43戌狗
日期:2014-06-16 11:05:00处女座
日期:2014-07-22 17:30:47狮子座
日期:2014-07-28 15:38:17金牛座
日期:2014-08-05 16:34:01亥猪
日期:2014-08-18 13:34:25白羊座
日期:2014-09-02 15:03:55金牛座
日期:2014-11-10 10:23:58处女座
日期:2014-12-02 09:17:52程序设计版块每日发帖之星
日期:2015-06-16 22:20:002015亚冠之塔什干火车头
日期:2015-06-20 23:28:22
7 [报告]
发表于 2013-11-15 15:03 |只看该作者
回复 6# gumuzhiyu
貌似用了dos2unix结尾还是少个换行,你手动添加吧~

   
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP