免费注册	查看新帖 \|


平台论坛博客文库

› 论坛 › 程序设计 › Python › html表格型数据用bs或者re模块怎么分析出(提取)对应的值 ...

12 / 2 页下一页

最近访问板块

发新帖

查看: 6138 | 回复: 10

上一主题

下一主题

html表格型数据用bs或者re模块怎么分析出(提取)对应的值的超链接 [复制链接]

论坛徽章:: 0

电梯直达

跳转到指定楼层

1楼 [收藏(0)] [报告]

发表于 2014-03-06 15:48 |只看该作者 |倒序浏览

本帖最后由 prints 于 2014-03-06 15:49 编辑

aspx的网页里面的表格数据，分析不出来，请各位路过的前辈，兄弟们多多帮忙啊。
我一天要打开许多次这个网页：http://www.porttrade.net/workinfo/PrintMD.aspx
我们要关注载有某种货物的船是否到了，如果这个网页上出现了，要知道它的中文船名，点最左边的船名可以进去看详细的内容，一天下来很是烦人，学python现在还是属于新手级的，许多地方的基本功都不扎实。看了源码在交互模式下搞了半天没有办法实现。
想法是用BeautifulSoup或正则表达式来取出对应的值，在这里只关心货物里面的“铁矿砂”，如果有就取出它的中文船名，然后获得链接地址获得里面的“备注”信息。
在此先谢过了！{:3_192:}

文库|博客

论坛徽章:: 33

荣誉会员
日期:2011-11-23 16:44:17

天秤座
日期:2014-08-26 16:18:20

天秤座
日期:2014-08-29 10:12:18

丑牛
日期:2014-08-29 16:06:45

丑牛
日期:2014-09-03 10:28:58

射手座
日期:2014-09-03 16:01:17

寅虎
日期:2014-09-11 14:24:21

天蝎座
日期:2014-09-17 08:33:55

IT运维版块每日发帖之星
日期:2016-04-17 06:23:27

操作系统版块每日发帖之星
日期:2016-04-18 06:20:00

IT运维版块每日发帖之星
日期:2016-04-24 06:20:00

15-16赛季CBA联赛之天津
日期:2016-05-06 12:46:59

2楼 [报告]

发表于 2014-03-06 16:39 |只看该作者

回复 1# prints

第一步, 取到整个 url的 html txt
第二步, 把所有的"回车"全去掉
第三步, 以<tr> </tr> 重新加上回车.
第四步, 找到你要的行 "铁矿砂", 顺便就解析出了你要的船名.

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 11

技术图书徽章
日期:2014-03-01 14:44:34

天蝎座
日期:2014-05-21 22:11:59

金牛座
日期:2014-05-30 17:06:14

3楼 [报告]

发表于 2014-03-06 16:57 |只看该作者

不是都有想法了吗？一步一步做，遇到具体问题再发问。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

4楼 [报告]

发表于 2014-03-06 17:14 |只看该作者

本帖最后由 prints 于 2014-03-06 17:14 编辑

回复 3# timespace

搞了一下午没搞成功，不是一步一步来，第一步就没想出办法。用bs模块和re都没想出办法来。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

5楼 [报告]

发表于 2014-03-07 09:52 |只看该作者

复制代码

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 11

技术图书徽章
日期:2014-03-01 14:44:34

天蝎座
日期:2014-05-21 22:11:59

金牛座
日期:2014-05-30 17:06:14

6楼 [报告]

发表于 2014-03-07 11:27 |只看该作者

已有楼上热心朋友提供的Python2版本了，我顺路提供个Python3的。

from bs4 import BeautifulSoup
from urllib.request import Request, urlopen
user_agent = \
'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_1) '\
'AppleWebKit/537.73.11 (KHTML, like Gecko) Version/7.0.1 '\
'Safari/537.73.11'
def get_doc(url):
req = Request(url, headers={'User-Agent': user_agent})
return BeautifulSoup(urlopen(req).read().decode('GB18030'))
def main():
doc = get_doc('http://www.porttrade.net/workinfo/PrintMD.aspx')
for tr in doc.select('table#DataGrid2 > tr'):
td = tr.select('td:nth-of-type(8)')
if not td or td[0].string.find('铁矿砂') == -1: continue
td = tr.select('td:nth-of-type(1) > a')
if not td: continue
name = td[0].string.strip()
url = 'http://www.porttrade.net/workinfo/' + td[0]['href']
tr_doc = get_doc(url)
td = tr_doc.select('span#txtbz')
if td:
note = td[0].string.strip() if td[0].string else 'None'
print('船名：{}\n备注：{}\n网址：{}\n'.format(name, note, url))
if __name__ == '__main__':
main()

复制代码

执行输出：

(py3) bash-3.2 $python --version
Python 3.3.4
(py3) bash-3.2 $python bs.py
船名：敬业6
备注：货备新苏港
网址：http://www.porttrade.net/workinfo/SASP.aspx?id=343989
船名：长禄海
备注：货备新苏港。
网址：http://www.porttrade.net/workinfo/SASP.aspx?id=344094
船名：浙海161
备注：None
网址：http://www.porttrade.net/workinfo/SASP.aspx?id=344096
船名：金海鲲
备注：None
网址：http://www.porttrade.net/workinfo/SASP.aspx?id=344184
船名：陆海顺
备注：None
网址：http://www.porttrade.net/workinfo/SASP.aspx?id=344199

复制代码

注：
1. 全面的异常检查，我就懒得做了。
2. 尽量加上与本地浏览器一致的User-Agent。
3. Python 3的源文件编码默认是UTF-8
如果经常抓网页数据，了解WEB基础是必须的，这不是一两个下午能搞定的，做好长期战斗准备。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

7楼 [报告]

发表于 2014-03-07 14:22 |只看该作者

回复 5# cdhigh

真心非常感谢，我得好好研究一番。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

8楼 [报告]

发表于 2014-03-07 14:23 |只看该作者

本帖最后由 prints 于 2014-03-07 16:42 编辑

回复 6# timespace

也非常感谢你，看样子我还是得多积累，非常感谢你的热心！
就是输出的结果都是按装货名称，没有卸货名称的。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 0

9楼 [报告]

发表于 2014-03-09 10:04 |只看该作者

本帖最后由 prints 于 2014-03-09 10:21 编辑

@timespace你的代码的main()里的内容没有看懂，能不能给个注解啊？

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

论坛徽章:: 11

技术图书徽章
日期:2014-03-01 14:44:34

天蝎座
日期:2014-05-21 22:11:59

金牛座
日期:2014-05-30 17:06:14

10楼 [报告]

发表于 2014-03-09 10:21 |只看该作者

本帖最后由 timespace 于 2014-03-09 10:27 编辑

回复 9# prints
这里取的是第八列“装货名称”，你可以在这基础上随便改。细节就是两部分内容，其一要看bs4文档的select函数，其二就是了解CSS selector语法

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

12 / 2 页下一页

发新帖

Chinaunix › 论坛 › 程序设计 › Python › html表格型数据用bs或者re模块怎么分析出(提取)对应的值 ...

北京盛拓优讯信息技术有限公司. 版权所有京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号：11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员联系我们：huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP