Chinaunix

标题: linux下html格式转换 [打印本页]

作者: 小鬼啊不    时间: 2015-08-05 15:19
提示: 作者被禁止或删除 内容自动屏蔽
作者: MMMIX    时间: 2015-08-05 15:40
回复 1# 小鬼啊不


    有
作者: 小鬼啊不    时间: 2015-08-05 16:52
提示: 作者被禁止或删除 内容自动屏蔽
作者: MMMIX    时间: 2015-08-05 16:56
回复 3# 小鬼啊不


    自己网上搜一下
作者: kk861123    时间: 2015-08-05 22:11
正好在看Mojolicious, 那就推荐一下一个迷你的解析器
  1. Mojo::DOM
复制代码

作者: pyartist    时间: 2015-08-12 16:07
本帖最后由 pyartist 于 2015-08-12 16:08 编辑

需要借助模块,不过若不是批量处理,直接阅读,linux下的lynx工具就够了
  1. use HTML::TreeBuilder;
  2. use HTML::FormatText;
  3.   
  4. open OUTPUT,">output.txt";
  5. $file = "C:/test.html";
  6. $tree = HTML::TreeBuilder->new->parse_file("$file");
  7.   
  8. $formatter = HTML::FormatText->new(leftmargin => 3, rightmargin => 100);
  9. print OUTPUT $formatter->format($tree) ;
  10. close OUTPUT;
复制代码

作者: 104359176    时间: 2015-08-12 22:44
推荐 Haskell 的格式转换工具 Pandoc, 你找找看,这个能转换很多种格式
作者: rubyish    时间: 2015-08-13 03:32
you 1 ge w3m
  1. w3m -dump input.html > output.txt
复制代码





欢迎光临 Chinaunix (http://bbs.chinaunix.net/) Powered by Discuz! X3.2