免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12
最近访问板块 发新帖
楼主: stesting
打印 上一主题 下一主题

学习python有前途吗 [复制链接]

论坛徽章:
0
11 [报告]
发表于 2012-11-21 19:51 |只看该作者
回复 10# laputa73


python2.7
sgmllib或者HTMLParser应该都可以实现。
   

论坛徽章:
42
19周年集字徽章-周
日期:2019-10-14 14:35:31平安夜徽章
日期:2015-12-26 00:06:30数据库技术版块每日发帖之星
日期:2015-12-01 06:20:002015亚冠之首尔
日期:2015-11-04 22:25:43IT运维版块每日发帖之星
日期:2015-08-17 06:20:00寅虎
日期:2014-06-04 16:25:27狮子座
日期:2014-05-12 11:00:00辰龙
日期:2013-12-20 17:07:19射手座
日期:2013-10-24 21:01:23CU十二周年纪念徽章
日期:2013-10-24 15:41:34IT运维版块每日发帖之星
日期:2016-01-27 06:20:0015-16赛季CBA联赛之新疆
日期:2016-06-07 14:10:01
12 [报告]
发表于 2012-11-22 08:39 |只看该作者
本帖最后由 laputa73 于 2012-11-22 08:52 编辑

回复 11# Scorpio0920
htmlparser不行吧
分析静态html还可以
它没有js引擎,不可能分析出动态资源的
sgmllib也不行。

现在的网页已经很少是单纯的静态页面了
也许分析下载以后的innerHTML还可以?



   

论坛徽章:
2
2015年迎新春徽章
日期:2015-03-04 09:55:28IT运维版块每日发帖之星
日期:2016-07-29 06:20:00
13 [报告]
发表于 2012-11-22 08:55 |只看该作者
回复 2# linux_c_py_php

此话怎讲?为啥不学C,学什么都学不好?
   

论坛徽章:
0
14 [报告]
发表于 2012-11-22 09:35 |只看该作者
本帖最后由 crifan 于 2012-11-22 09:38 编辑

回复 10# laputa73


简单说:行。
其实可以说,不用urllib,自己写代码,都行。
毕竟,urllib,也是利用python本身的语言的特性,一点点写出来的。
只不过,一般来说,网络相关的处理,利用已有的urllib,urllib2等,会更加高效,避免重复造轮子而已。

但是很明显,你这里,自己不清楚逻辑而已。
所以自己去参考:
【整理】关于抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项
搞懂逻辑,然后再自己用工具:
【教程】手把手教你如何利用工具(IE9的F12)去分析模拟登陆网站(百度首页)的内部逻辑过程
去抓取你所需要的逻辑和内容。
即你这里的url(不管任何类型的,只要实际上出现了,理论上都可以抓取到的)列表。
再参考相关代码:
【教程】抓取网并提取网页中所需要的信息 之 C#版

【教程】模拟登陆网站 之 C#版(内含两种版本的完整的可运行的代码)

然后再写代码去实现你自己的逻辑。

还是那句话,关键在于自己要搞懂逻辑,然后才是具体实现。

话说,的确是靠自己很难搞懂。至少我之前想要找类似帖子,都很难找到说的清楚的。所以我基本弄懂后,才写出来给你们看的。


论坛徽章:
0
15 [报告]
发表于 2012-11-22 13:04 |只看该作者
这个帖子对我很有用,真心谢谢!

论坛徽章:
0
16 [报告]
发表于 2013-12-10 22:20 |只看该作者
Python 比较自由,写起来比较快,但好像不适合大型项目。


Python不可维护?终于把一个8万行的Python程序用Java重写了
http://ourjs.com/detail/52a5217fc253e36203000002

论坛徽章:
0
17 [报告]
发表于 2013-12-11 19:30 |只看该作者
无论那一种语言,只要你在这门语言上有核心竞争力,就有前途和钱途。
所以,关键是核心竞争力,而不是语言本身。

论坛徽章:
4
天蝎座
日期:2013-11-06 11:39:34巳蛇
日期:2014-01-16 16:53:14午马
日期:2014-08-25 21:42:302015年迎新春徽章
日期:2015-03-03 17:21:44
18 [报告]
发表于 2013-12-26 19:45 |只看该作者
上大学有前途吗?
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP