- 论坛徽章:
- 0
|
对了,那就顺便再问个问题,
大家注意到很多采集程序可以让用户填写[内容][标题]等标签.
但程序是怎么样判断到底采回来的内容是什么的呢?
因为我们其实最终都会帮用户将这些表达式翻译成正则,
如果我这样写:
<a href=[地址]>[标题]</a>
当然程序可以直接翻译成正则,因为很明显
preg_match后,第一个元素是地址,第二个是标题.
于是就$url = $Data[1];
$title = $Data[2];
但是假如是有这样的内容,我想做采集,用户使用了[可变数据]标签,那我们的程序如何获得呢?
HTML内容是:
<a href=/society.html>(社会)</a><a href=fdsfa87fdss8d7f9sa8.html>第一条标题</a>
<a href=/tech.html>(科技)</a><a href=fdsfa87fd87fd65of9h.html>第二条标题</a>
那么用户就必须这样写采集规则:
<a href=/[可变数据]>([可变数据])</a><a href=[地址]>[标题]</a>
那我们的程序这时候如何识别,获得地址和标题?
ps:乔乔如果觉得这个属于新的话题我就另开个新主题好了. |
|