Chinaunix

标题: 将文本格式转换成表格形式（使用等宽字体显示） [打印本页]

作者: Perlvim 时间: 2013-03-31 15:46
标题: 将文本格式转换成表格形式（使用等宽字体显示）
本帖最后由 Perlvim 于 2013-03-31 15:49 编辑

一个由二个空格以上分隔的列
colname1 colname2 colname3
str1    str2    str3
str4    str5    str6

转换成：

------------------------------
colname1 | colname2 | colname3
------------------------------
str1       | str2    | str3
------------------------------
str4       | str5    | str6
------------------------------

或者其中有一个单元格为空

colname1 colname2 colname3
str1                str3
str4    str5    str6

转换成：

------------------------------
colname1 | colname2 | colname3
------------------------------
str1       |             | str3
------------------------------
str4       | str5       | str6
------------------------------

其中一个单元格有换行
colname1 colname2 colname3
str1    str2    str3 str3
                  str3
str4    str5    str6

-------------------------------
colname1 | colname2 | colname3
-----------------------------
str1       | str2          | str3 str3
            |                | str3
-----------------------------
str4       | str5          | str6
-----------------------------

作者: yinyuemi 时间: 2013-03-31 15:47

#!/usr/bin/env perl
use strict;
use Data::Dumper;
my %data_v;
my $max_len;
my ($line,$col);
while(<DATA>){
chomp;
$line++;
$col = 0;
map{
push @{$data_v{$line}},$_;
$col++;
$max_len = length($_) if $max_len <= length($_);
}split; # use your defined delimited character, like "\t", to separate the line;
}
my $ps = $max_len * $col + ($col - 1)*3;
foreach my $x (1..$line){
print "|-" . '-' x $ps . "|\n| ";
print join " | ", map{$max_len == length($_) ? $_ : $_ . ' ' x ($max_len - length($_))}@{$data_v{$x}};
print "|\n";
}
print "|-" . '-' x $ps . "|\n";
__DATA__
col1 col2 col3 col4
Abidjan Banjul Conakry Harare
Accra Bissau Dakar Johannesburg
Addis_Ababa Blantyre Dar_es_Salaam Juba
Algiers Brazzaville Djibouti Kampala

复制代码

回复 12# Perlvim

作者: rubyish 时间: 2013-03-31 17:03
如何不一样?

其中一个单元格有换行
colname1 colname2 colname3
str1 str2 str3 str3
str3
str4 str5 str6

复制代码

AAA BBB CCC
a1 b1 c1c2
empty empty c2
a2 b2 c2

复制代码

作者: Perlvim 时间: 2013-03-31 18:26
回复 2# rubyish
有换行，还是一个单元格，前两个都为空，就是单独的单元格了。

作者: zhlong8 时间: 2013-03-31 19:23
这不是 format 干的事吗？不过我从来没学会啊，还有相关的那几个特殊变量

作者: Perlvim 时间: 2013-03-31 21:16
回复 4# zhlong8

format 不是程序员做的事情，简直就是文员做的事情，比 word 还麻烦，根本没有程序的特性。

作者: rubyish 时间: 2013-04-01 09:43
本帖最后由 rubyish 于 2013-04-01 05:46 编辑

是 ma ?

#!/usr/bin/perl
sub table {
my %i = ( @_, @_ % 2 ? 0 : () );
my @dat = @{ $i{data} || shift };
my $p = $i{align} // 0;
my %T = (
t => [ qw(┌ ┬ ┐) ],
m => [ qw(├ ┼ ┤) ],
b => [ qw(└ ┴ ┘) ],
h => '─', v => '│'
);
my $l = 0;
map $l < $_ && ( $l = $_ ), map length, map @$_, @dat;
my $e = scalar @{ $dat[0] };
my ( $ht, $hm, $hb ) = map {
$T{$_}[0] . join( $T{$_}[1], ( $T{h} x ( $l + 2 ) ) x $e ) . "$T{$_}[2]\n";
} qw/t m b/;
my $al = sub { map { my $s = $" x ( 1 + $l - length ); $p ? "$s$_ " : " $_$s" } @_ };
my $text = sub { $T{v} . join( $T{v}, $al->(@_) ) . "$T{v}\n" };
$ht . join( $hm, map $text->(@$_), @dat ) . $hb;
}
my @a = map [split], <DATA>;
print table \@a;
print table data => \@a, align => 1;
print table data => \@a';
__DATA__
Abidjan Banjul Conakry Harare
Accra Bissau Dakar Johannesburg
Addis_Ababa Blantyre Dar_es_Salaam Juba
Algiers Brazzaville Djibouti Kampala

复制代码

作者: dahe_1984 时间: 2013-04-01 11:04
其中有单元格和回车只能是肉眼判断啊？那程序也无能为力呀

作者: dahe_1984 时间: 2013-04-01 11:06
回复 6# rubyish

呵呵，您写的代码永远这么高深莫测，我总是看不懂

作者: Perlvim 时间: 2013-04-01 11:10
本帖最后由 Perlvim 于 2013-04-01 11:11 编辑

好好研究中。。

┌───────┬───────┬───────┬───────┐
│ Abidjan │ Banjul │ Conakry │ Harare │
├───────┼───────┼───────┼───────┤
│ Accra │ Bissau │ Dakar │ Johannesburg │
├───────┼───────┼───────┼───────┤
│ Addis_Ababa │ Blantyre │Dar_es_Salaam │ Juba │
├───────┼───────┼───────┼───────┤
│ Algiers │ Brazzaville │ Djibouti │ Kampala │
└───────┴───────┴───────┴───────┘

复制代码

作者: Perlvim 时间: 2013-04-01 11:45
本帖最后由 Perlvim 于 2013-04-01 11:50 编辑

代码翻译一下，代码思维极具跳跃性，我也是基本靠猜。

#!/usr/bin/perl
sub table {
# 传递参数，如果只有一个参数，就设置为默认对齐方式
my %i = ( @_, @_ % 2 ? 0 : () );
# 如果有 data 就取其作为数据项
my @dat = @{ $i{data} || shift };
# 如果有 align 就取其作为对齐参数
my $p = $i{align} // 0;
# 边框字符表
my %T = (
t => [ qw(┌ ┬ ┐) ],
m => [ qw(├ ┼ ┤) ],
b => [ qw(└ ┴ ┘) ],
h => '─',
v => '│',
);
# 最长的字段长度
my $l = 0;
# 典型施瓦茨变换格式
# 获取最长字段的数值
map $l < $_ && ( $l = $_ ),
# 获取长度
map length,
# 解引用
map @$_, @dat;
# 获取字段数量
my $e = scalar @{ $dat[0] };
# 生成表格框架
# 开头字符 + 分界符 + 字段最长长度 + 2个空格 + 分界符 + 末尾字符
my ( $ht, $hm, $hb ) = map {
$T{$_}[0] . join( $T{$_}[1], ( $T{h} x ( $l + 2 ) ) x $e ) . "$T{$_}[2]\n";
} qw/t m b/;
# 生成将数据按照长度插入分隔符的子程序
my $al = sub { map { my $s = $" x ( 1 + $l - length ); $p ? "$s$_ " : " $_$s" } @_ };
# 生成文本解析子程序
my $text = sub { $T{v} . join( $T{v}, $al->(@_) ) . "$T{v}\n" };
# 增加前后表头，并生成最终结果
$ht . join( $hm, map $text->(@$_), @dat ) . $hb;
}
# 将内容保存为数组的引用的数组
my @a = map [split], <DATA>;
# 两种参数传递风格，可以传递对其方式，也可以默认使用左对齐
print table \@a;
print table data => \@a, align => 1;
print table data => \@a;

复制代码

作者: yinyuemi 时间: 2013-04-01 18:46
回复 3# Perlvim

我觉得这两种情况的确不好判断，你可以考虑像excel的输出格式，比如

abc abcd "ief
eing"
din dge kxd
ge

复制代码

上面" "，指明了ief 和eing是在一起的，而kxd和ge不是

作者: Perlvim 时间: 2013-04-01 20:23
回复 11# yinyuemi

就假设没有这样的异常情况，因为这些异常情况都可以用单独的程序进行修正

作者: Perlvim 时间: 2013-04-01 22:16
回复 12# yinyuemi

非常感谢音乐迷的梦幻作品。

每个字段的宽度不同，默认取的是最长字段宽度，这样浪费较大。应当取当前列中最宽的长度作为当前列的宽度。

实际应用中，多个字段，通常一个字段较长，必须要分行处理。就好像 <<Perl 口袋书>>中，大量的使用表格型数据。

在不同的终端上，表格宽度需要调整，所以，这个算法要想成为实用的算法，还需要稍微改进一下。

作者: yinyuemi 时间: 2013-04-01 22:29
回复 14# Perlvim

是的，应该去当前列最大的，用个hash保存，应该就能实现，有时间我再改改

作者: rubyish 时间: 2013-04-02 09:03
我的 V2:

#!/usr/bin/perl
sub table {
my %i = ( align => 1, title => '', space => 1, samewidth => 1 );
@_ % 2 ? do { $i{data} = shift } : do { %i = ( %i, @_ ) };
my ( $p, $t, $c, $w ) = @i{qw/align title space samewidth/};
my @d = @{ $i{data} };
my ( $l, $s, $e, @l, $L ) = ( 0, $" x $c, scalar @{ $d[0] } );
my %T = (
b => [qw(: - :)],
m => [qw(: + :)],
h => '-', v => '|'
);
@l = $w
? do { map $l < $_ && ( $l = $_ ), map length, map @$_, @d; ($l+$c*2) x $e }
: do { map {
my ( $l, $a ) = ( 0, $_ );
map $l < $_ && ( $l = $_ ), map length $d[$_][$a], 0 .. $#d; $l + $c * 2
} 0 .. $e - 1 };
$L += $_ for @l;
$L += $e - 1;
my ( $hm, $hb ) =
map { $T{$_}[0].join( $T{$_}[1], map $T{h} x $_, @l )."$T{$_}[2]\n"
} qw/m b/;
my $title = "$T{v}$s$t".$" x ( $L - $c - length $t )."$T{v}\n";
my $A = sub {
my $i;
map { my $x = $" x ( $l[$i++] - $c - length ); $p ? "$s$_$x" : "$x$_$s" } @_;
};
my $text = sub { $T{v} . join( $T{v}, $A->(@_) ) . "$T{v}\n" };
$hb.( $t ? $title.$hb : '' ).join( $hm, map $text->(@$_), @d ).$hb;
}
my @a = map [split], <DATA>;
print table \@a;
print table data => \@a, align => 1, space => 0;
print table data => \@a, samewidth => 0, title => 'Africa', align => 0, space => 1;
__DATA__
Abid Banjul Conakry Harare
Accra Bissau Dakar Johanne
Addis Blantyre Dar_es_Salaam Juba
Algie Brazzaville Djibouti Kampala

复制代码

作者: rubyish 时间: 2013-04-02 09:48

dahe_1984 发表于 2013-04-01 07:06
回复 6# rubyish

呵呵，您写的代码永远这么高深莫测，我总是看不懂

我也是!{:3_188:}
基本靠猜。{:3_203:}

作者: kk861123 时间: 2013-04-02 09:55

rubyish 发表于 2013-04-02 09:48
我也是!
基本靠猜。

给变量起个好名字吧，别总是阿猫阿狗的{:3_185:}

作者: rubyish 时间: 2013-04-02 10:05

kk861123 发表于 2013-04-02 05:55
给变量起个好名字吧，别总是阿猫阿狗的

{:3_188:}

my $cat = 'cat';
my $dog = 'dog';

复制代码

欢迎光临 Chinaunix (http://bbs.chinaunix.net/)