- 论坛徽章:
- 0
|
10可用积分
最近想做一个特定关键词信息监控系统,设计目标:
(1) 该系统能够对用户设定的特定关键字进行搜索,并对相关内容信息进行分析处理,最后得出结论,汇报给用户。
(2) 该系统能够按一定频率进行搜索,及时发现问题。搜索和汇报的频率可以由用户设置。
(3) 该系统的搜索范围广泛,包括新闻、论坛、博客等。
功能类似于google快讯(http://www.google.com/alerts?hl=zh-CN&t=1)只不过搜索范围更广泛一点:
监视主题:
监视频率:
因为不是商业开发,所以我准备使用现有搜索引擎提供的服务,如百度,google等。
首先请大家给个思路,另外还有一些问题:
问题1.调用搜索服务后如何接收搜索的结果.比如以下几行代码是借助baidu的服务搜索关键字‘abc’:
<script language=javascript>
setTimeout("document.form1.submit()",1000)
</script>
<form name=form1 action="http://www.baidu.com/baidu">
<table bgcolor="#FFFFFF"><tr><td>
<input type=text name=word value="abc" size=30>
</td></tr></table>
</form>
如何才能接收返回的结果呢?需要编写客户端接收代码进行处理吗?
问题2.如何自动化的把搜索到的内容分析提取出来,然后发送给用户。提取内容包括网址和和关键词相关的描述。如“台独”关键字,我想把与台独有关的文章网址和相关的简单描述提取出来保存到文件中,发送给用户。
问题3.如何区分新内容与老内容?也就是说我每次提取的只是更新内容,而不是所有内容。比如我第一次搜索“台独”搜到200w条记录,但是2个小时后再搜,可能最新更新的关于台独的文章只有200篇,这次我只想搜到这200篇而不是200w+200篇。
请各位高手指点一下,谢谢! |
|