用Perl实现对Html可变标签整理的问题

查看完整内容

文库|博客

论坛徽章:: 3

2楼 [报告]

发表于 2009-02-16 10:50 |只看该作者

{
my $h = HTML::TreeBuilder->new_from_content( decode($encode, $html) );
for my $span( $h->look_down(_tag => q{span}) ) {
$span->attr(lang=>undef) if ( defined $span->attr('lang') );
$span->replace_with_content($span->content_refs_list) if
( not defined $span->attr('style') );
}
$s = encode( $encode, $h->as_HTML('<>&',' ',{}) ) . "\n";
print $s;
$h->delete;
}

复制代码

<html>
<head>
</head>
<body>
aaaaa AAAAA BBBBBCCCCC DDDDDEEEEE FFFFFGGGGG HHHHH
OOOOO PPPPP IIIII JJJJJ KKKKK LLLLL MMMMM
</body>
</html>

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 3

3楼 [报告]

发表于 2009-02-16 11:57 |只看该作者

回复 #2 ynchnluiti 的帖子

结果是楼主要的吗？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

4楼 [报告]

发表于 2009-02-16 14:47 |只看该作者

非常谢谢ynchnluiti的帮助这段代码已经基本解决了这个问题。

但是目前还有2个小问题需要解决。

1 代码中单引号和双引号的问题：
原始代码 
转换后代码 

这里的符号发生了变化，在英文网页中看没有任何问题，但是日文版网页中就会看到一些标签失效的问题。
这里我在想是不是$h->as_HTML('<>&',' ',{}) 这个地方的问题。
能不能修改一下让这个单引号不要变成双引号呢？

2 对于一些特殊字符 诸如 √ ∫ № μ　① ② ③ 这样的符号都没有被正确识别，语言Code已经被正确导入了的话。
是否还要追加一些设定呢？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 3

5楼 [报告]

发表于 2009-02-16 19:44 |只看该作者

原帖由 niaya 于 2009-2-16 14:47 发表
非常谢谢ynchnluiti的帮助这段代码已经基本解决了这个问题。

但是目前还有2个小问题需要解决。

1 代码中单引号和双引号的问题：
原始代码
转换后代码

这里的符号发生了变化，在英文网页中看 ...

1 暂时没找到dump标签属性用单引号的设置。不过日文里，html的属性应该也可以用双引号吧
2 脚本的编码，浏览软件（浏览器，编辑器等）的编码也要一致。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

6楼 [报告]

发表于 2009-02-17 10:29 |只看该作者

原帖由 ynchnluiti 于 2009-2-16 19:44 发表

1 暂时没找到dump标签属性用单引号的设置。不过日文里，html的属性应该也可以用双引号吧
2 脚本的编码，浏览软件（浏览器，编辑器等）的编码也要一致。

是这样，因为我说的这个问题只是我要实现功能的一部分。
还有其他的处理是基于原来的这部分代码的。
如果说改变了这样的TAG信息，大部分的内容我都要写两次判断，这样比较麻烦。

能不能不使用这个TreeBuilder直接完成这个处理？
比如说，把整个html拼成一个字符串，对这个字符串进行处理。
（每一段落对于进行堆栈操作的话可行吗？）

现在的确是不希望代码的变动太大。如果不用这个TreeBuilder的话，上面这两个问题都不会发生。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 3

7楼 [报告]

发表于 2009-02-17 13:50 |只看该作者

原帖由 niaya 于 2009-2-17 10:29 发表
能不能不使用这个TreeBuilder直接完成这个处理？
比如说，把整个html拼成一个字符串，对这个字符串进行处理。
（每一段落对于进行堆栈操作的话可行吗？）

复杂的html不好处理。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

8楼 [报告]

发表于 2009-02-18 11:02 |只看该作者

原帖由 ynchnluiti 于 2009-2-17 13:50 发表

复杂的html不好处理。

那我把我的需求补充一下吧。
刚才看了下，可以实现对某些TAG的删除。

比如说我现在要对<head></head>这对标签进行整理。
将其间所有除了<title></title>这个标签以外的所有子节点全部删除。

例如

<head>
<meta XXXXX>
<meta XXXXX>
<title>AAAAA</title>
<style=XXXXX>
<style=XXXXX>
.
.
.
<XXXXXX>
</head>

复制代码

整理为

<head>
<title>AAAAA</title>
</head>

复制代码

这样

最好用TreeBuilder这类Html的模块实现。
应该用(content_list())吗？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？