- 论坛徽章:
- 0
|
4楼
发表于 2011-07-26 14:18
NND, 气愤的解决问题了, 再帖出来, 看看我们的铁道部是否还会重现!
html中的一个table:
<table class="table-list" cellpadding="0" cellspacing="0" border="0">
<tr class="own">
<td class="first"> <a href="xxx.xxx.com" target="_blank"><em>百度</em></a> </td>
<td class="second"><a href="xxx.xxx.com" target="_blank"><em>新闻</em></a></td>
</tr>
<tr class="own stripe">
<td class="first"> <a href="xxx.xxx.com" target="_blank"><em>新浪</em></a> </td>
<td class="second"><a href="xxx.xxx.com" target="_blank"><em>新闻</em></a></td>
</tr>
</table
1. 需要在html中的众多table中, 找到这个class="table-list"的table
2. 提取这个table中的文本及文本对应的连接, 如:
百度: xxx.xxx.com
新闻: xxx.xxx.com
解决思路就是, 先使用handle_data提取这个table中的文本, 然后设置一个标志, 再使用start_a提取href, 在start_a中判断之前的标志是否为真, 如果是真, 即可提取. |
|