免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 2978 | 回复: 13
打印 上一主题 下一主题

[算法] 请教个问题,这个有人知道吗? [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-12-24 15:42 |只看该作者 |倒序浏览
鲜果,不知道有没有人用过。
http://app.xianguo.com/lianbo/android.php
我下载了个,用了一下感觉做得真的不错。
只是有一点不明白。
Rss,标题是有的,内容的,有的网站会有,有没有,多数只是一个内容的简介。

但是鲜果,点一篇文章,显示的是文章的内容,他们是怎么取的文章的内容?
用的什么技术?我一直搞不明白,正则表达式?可是每个网站的布局是不同的,而且是可能会改变的,可行吗?
他们是怎么做的?



Rss一般是点击标题,打开那个网页的。
Rss里标题是肯定有的,但内容不一定有。

但鲜果,在查看时,只显示了新闻标题,内容,他是怎么样从网页上抓取这个新闻内容的,这才是我问的。

http://www.20ju.com/rss.xml

<description><![CDATA[有个职场新人在面试的时候排出一个大名片簿,指着上面的总裁们、CEO们说:虽然我刚出来工作,但我的人脉很广。
他没拿到这份工作。面试他...<br /><strong>Tags</strong>:<a href='Tags_%E4%BA%BA%E8%84%89%EF%BC%8C%E5%85%B3%E7%B3%BB.htm' target='blank'>人脉,关系</a>&nbsp;&nbsp;]]></description>

只是对内容的一个简介,不是完整的内容,鲜是如何获取完整的内容的?


不知道发这里是否合适,如果不合适,请版主转到其它区

论坛徽章:
0
2 [报告]
发表于 2012-12-24 15:43 |只看该作者
http://social.microsoft.com/Foru ... 4-b98e-98dac841b57b

http://bbs.csdn.net/topics/390326118

我在微软,CSDN都发了贴,至今还没找到答案。
不知道去哪儿里问才有高人指点一下。

论坛徽章:
0
3 [报告]
发表于 2012-12-24 16:10 |只看该作者
回复 1# wufan110


    1, 文章是放在数据库的,如果走到是传统APP,直接传过来就Ok了。

2,html5的APP的话和浏览器是一样的。

论坛徽章:
0
4 [报告]
发表于 2012-12-24 17:00 |只看该作者
回复 3# zimang

表示你没看明白问题。

这个是RSS,不知道你用过RSS没有。


   

论坛徽章:
0
5 [报告]
发表于 2012-12-24 17:02 |只看该作者
回复 3# zimang


    文章哪儿来的?文章是RSS,是其它网站上的。
他是如何抓取过来的,这个是关键。

论坛徽章:
59
2015年亚洲杯之约旦
日期:2015-01-27 21:27:392015年亚洲杯之日本
日期:2015-02-06 22:09:41拜羊年徽章
日期:2015-03-03 16:15:432015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015元宵节徽章
日期:2015-03-06 15:50:392015年亚洲杯之阿联酋
日期:2015-03-19 17:39:302015年亚洲杯之中国
日期:2015-03-23 18:52:23巳蛇
日期:2014-12-14 22:44:03双子座
日期:2014-12-10 21:39:16处女座
日期:2014-12-02 08:03:17天蝎座
日期:2014-07-21 19:08:47
6 [报告]
发表于 2012-12-24 17:15 |只看该作者
rss似乎不是HTTP,像是HTTP加上一些Externsion的。

但就你说的功能,HTTP也是可以做到的,
原理很简单。
给每个Title一个Uniquire ID。显示标题。
点击(或移到)到该标题时,用JQuery向服务器请求HTTP页面,HTTP页面返回页面的Abstract。
(或直接用Javascript抓取对方的网页,并分析HTML提取其内容,当然这个要很好复杂的JS)

论坛徽章:
1
丑牛
日期:2013-09-29 19:04:50
7 [报告]
发表于 2012-12-24 17:46 |只看该作者
不知道这有什么难的,每个rss项里面不是有一个文章的链接吗? 抓取连接里面的内容不就行了吗?

论坛徽章:
0
8 [报告]
发表于 2012-12-24 19:22 |只看该作者
回复 7# solu

说的没错,有个连接,抓取连接就可以了

可是这个连接里面,有网站头,等等,新闻内容以外的东西。

鲜果做到哪种程度了?就是说抓到的,只是新闻内容,其它的已经过滤掉了。


这样手机用户,打开看的时候就是新闻标题,新闻的内容。

我的问题也就是,他是如何抓紧取的新闻内容,只有内容,没有其它无用的东西。


   

论坛徽章:
0
9 [报告]
发表于 2012-12-24 19:26 |只看该作者
回复 5# wufan110


    RSS 有自己的格式。有库可以解析的。

论坛徽章:
1
丑牛
日期:2013-09-29 19:04:50
10 [报告]
发表于 2012-12-24 19:27 |只看该作者
wufan110 发表于 2012-12-24 19:22
回复 7# solu

说的没错,有个连接,抓取连接就可以了




用正则表达式提取你想要的内容
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP