免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 3535 | 回复: 4
打印 上一主题 下一主题

想做一个web主题信息监视系统,请各位提供宝贵建议 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2008-01-11 14:39 |只看该作者 |倒序浏览
10可用积分
最近想做一个特定关键词信息监控系统,设计目标:
(1) 该系统能够对用户设定的特定关键字进行搜索,并对相关内容信息进行分析处理,最后得出结论,汇报给用户。
(2) 该系统能够按一定频率进行搜索,及时发现问题。搜索和汇报的频率可以由用户设置。
(3) 该系统的搜索范围广泛,包括新闻、论坛、博客等。
功能类似于google快讯(http://www.google.com/alerts?hl=zh-CN&t=1)只不过搜索范围更广泛一点:
监视主题:
监视频率:


因为不是商业开发,所以我准备使用现有搜索引擎提供的服务,如百度,google等。
首先请大家给个思路,另外还有一些问题:
问题1.调用搜索服务后如何接收搜索的结果.比如以下几行代码是借助baidu的服务搜索关键字‘abc’:
<script language=javascript>
setTimeout("document.form1.submit()",1000)
</script>
<form name=form1 action="http://www.baidu.com/baidu">
<table bgcolor="#FFFFFF"><tr><td>
<input type=text name=word value="abc" size=30>
</td></tr></table>
</form>
如何才能接收返回的结果呢?需要编写客户端接收代码进行处理吗?
问题2.如何自动化的把搜索到的内容分析提取出来,然后发送给用户。提取内容包括网址和和关键词相关的描述。如“台独”关键字,我想把与台独有关的文章网址和相关的简单描述提取出来保存到文件中,发送给用户。
问题3.如何区分新内容与老内容?也就是说我每次提取的只是更新内容,而不是所有内容。比如我第一次搜索“台独”搜到200w条记录,但是2个小时后再搜,可能最新更新的关于台独的文章只有200篇,这次我只想搜到这200篇而不是200w+200篇。   


请各位高手指点一下,谢谢!

论坛徽章:
0
2 [报告]
发表于 2008-01-11 16:34 |只看该作者
自己顶一个

论坛徽章:
0
3 [报告]
发表于 2008-01-14 10:51 |只看该作者
顶一下

论坛徽章:
0
4 [报告]
发表于 2008-01-16 11:15 |只看该作者
同求。。俺 也想学习下,高手指点啊。

论坛徽章:
0
5 [报告]
发表于 2008-01-20 02:42 |只看该作者
1.如果使用GOOGLE.他提供了GOOGLE SEARCH API 可以自己定制.
2.对百度不熟.除了搜索音乐.几乎从来不用.
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP