免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: wenjun3000
打印 上一主题 下一主题

[文本处理] 137G超大txt文件,utf-8格式,共10961771行,请高手们帮忙! [复制链接]

论坛徽章:
2
程序设计版块每日发帖之星
日期:2016-08-17 06:20:00每日论坛发贴之星
日期:2016-08-17 06:20:00
11 [报告]
发表于 2016-07-29 23:42 |只看该作者
如果用PowerShell工具脚本,如何实现按顺序每50000行代码放入一个文件夹,文件夹按顺序为1到220,然后将50000行代码分割为一行一个txt文件,最后将所有txt文件改为html文件。

论坛徽章:
2
程序设计版块每日发帖之星
日期:2016-08-17 06:20:00每日论坛发贴之星
日期:2016-08-17 06:20:00
12 [报告]
发表于 2016-07-29 23:42 |只看该作者
希望高手或大神能给出完整的解决方案,多谢!

论坛徽章:
13
CU大牛徽章
日期:2013-04-17 11:20:3615-16赛季CBA联赛之吉林
日期:2017-05-25 16:45:4715-16赛季CBA联赛之福建
日期:2017-03-13 11:33:442017金鸡报晓
日期:2017-02-08 10:39:422017金鸡报晓
日期:2017-01-10 15:13:29IT运维版块每日发帖之星
日期:2016-03-15 06:20:01IT运维版块每日发帖之星
日期:2015-10-02 06:20:00CU十二周年纪念徽章
日期:2013-10-24 15:41:34CU大牛徽章
日期:2013-09-18 15:15:45CU大牛徽章
日期:2013-09-18 15:15:15CU大牛徽章
日期:2013-04-17 11:46:39CU大牛徽章
日期:2013-04-17 11:46:28
13 [报告]
发表于 2016-07-30 06:14 |只看该作者
这个文件是在win7下产生的?
其实你需要考虑如下的问题,考虑清楚了,自己就可以处理好(给你一些建议):
1. 如何流式读取大文件
2. 如何计数行数
3. 如何计数输出文件名
4. 所谓的txt转换成html到底是什么样的操作(标准)
---------------------------如下是建议--------------------------------
1. 因为的你源文件太大了,普通的文本处理肯定是不行的,所以可能需要用到.Net里面的StreamReader来流式读取,此外StreaReader默认就是以utf8来处理,大致的应用为:
  1. $file = new-object System.IO.StreamReader("需要读取的大文件路径")
  2. try {
  3.     while (($line = $file.ReadLine()) -ne $null) {
  4.        # 需要对每行做的处理,  $line 中放置的是当前读到的一行内容
  5.     }
  6. }
  7. finally {
  8.     $file.Close()
  9. }
复制代码
2. 行计数其实结合前面的内容很容易实现,自己定义一个变量每行+1即可

3. 文件计数其实也很简单,就是行计数整除50000后再+1 即可

4. 文本转换成html不知道你的具体要求,所以不好说了。

论坛徽章:
2
程序设计版块每日发帖之星
日期:2016-08-17 06:20:00每日论坛发贴之星
日期:2016-08-17 06:20:00
14 [报告]
发表于 2016-07-30 07:15 |只看该作者
txt转html,只是文件改名而已,里面每行都是完整的html代码

论坛徽章:
2
程序设计版块每日发帖之星
日期:2016-08-17 06:20:00每日论坛发贴之星
日期:2016-08-17 06:20:00
15 [报告]
发表于 2016-07-30 08:18 |只看该作者
用powershell,半小时过去了,还是显示“警告:读取大文件开始”

论坛徽章:
2
程序设计版块每日发帖之星
日期:2016-08-17 06:20:00每日论坛发贴之星
日期:2016-08-17 06:20:00
16 [报告]
发表于 2016-07-30 08:21 |只看该作者
而且powershell狂耗内存,半小时后电脑很卡

论坛徽章:
0
17 [报告]
发表于 2016-07-30 16:27 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
7
申猴
日期:2014-12-21 13:57:24巳蛇
日期:2014-12-25 22:27:08申猴
日期:2015-01-19 08:07:36辰龙
日期:2015-02-04 11:40:06处女座
日期:2015-02-04 11:40:412015年亚洲杯之卡塔尔
日期:2015-03-06 12:01:322015年亚洲杯之乌兹别克斯坦
日期:2015-03-31 13:43:57
18 [报告]
发表于 2016-07-30 16:47 |只看该作者
用Python,不占内存,也不会很卡,耗时你得试试。
  1. f = open('test.txt')

  2. tmp = 0
  3. print('>>>Starting...')
  4. while True:
  5.         tmp += 1
  6.         f_tmp = open('{}.html'.format(tmp), 'w+')
  7.         try:
  8.                 for i in range(50000):
  9.                         f_tmp.write(next(f))
  10.         except StopIteration:
  11.                 break
  12.         finally:
  13.                 f_tmp.close()
  14.         f_tmp.close()

  15. print(">>>Finished.")
复制代码

论坛徽章:
0
19 [报告]
发表于 2016-07-30 18:50 |只看该作者
提示: 作者被禁止或删除 内容自动屏蔽

论坛徽章:
2
程序设计版块每日发帖之星
日期:2016-08-17 06:20:00每日论坛发贴之星
日期:2016-08-17 06:20:00
20 [报告]
发表于 2016-07-31 09:33 |只看该作者
多谢各位帮忙,测试过了,通过7z+lzma2格式压缩,半小时后cpu占用率60%,电脑卡死,只能放弃压缩了。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP