免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 23555 | 回复: 11
打印 上一主题 下一主题

[文本处理] curl 出现Failed writing body 问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2014-09-24 20:44 |只看该作者 |倒序浏览
本帖最后由 tahaomei 于 2014-09-25 07:30 编辑

想用以下shell代码将股票代码和名称 挖掘出来

#!/bin/sh

stocklist=http://quote.eastmoney.com/stocklist.html
curl $stocklist | grep s[hz][0-9][0-9][0-9][0-9][0-9][0-9].html | iconv -f gb2312 -t utf-8 | cut -d">" -f 3

执行了一部分,出现如下错误,请问该如何处理?
  1. 方大炭素(600516)</a
  2. 置信电气(600517)</a
  3. 康美药业(600518)</a
  4. 贵州茅台(600519)</a
  5. 中发科技(600520)</a
  6. 华海药业(600521)</a
  7. 中天科技(600522)</a
  8. 贵航股份(600523)</a
  9. 长园集团(600525)</a
  10. 菲达环保(600526)</a
  11. 江南高纤(600527)</a
  12. 中铁二局(600528)</a

  13. iconv: 山东药玻(600529)</a
  14. (stdin):598:83: cannot convert
  15. 交大昂立(600530)</a
  16. 豫光金铅(600531)</a
  17. 宏达矿业(600532)</a
  18. 栖霞建设(600533)</a
  19. 天士力(600535)</a
  20. 中国软件(600536)</a
  21. 亿晶光电(600537)</a
  22. 国发股份(600538)</a
  23. 狮头股份(600539)</a
  24. 新赛股份(600540)</a
  25. 莫高股份(600543)</a
  26. 新疆城建(600545)</a
  27. 山煤国际(600546)</a
  28. 山东黄金(600547)</a
  29. 深高速(600548)</a
  30. 厦门钨业(600549)</a

  31. 35  405k   35  145k    0     0   129k      0  0:00:03  0:00:01  0:00:02  129k
  32. curl: (23) Failed writing body (0 != 1440)
复制代码

论坛徽章:
30
申猴
日期:2014-04-10 09:43:532015年亚洲杯纪念徽章
日期:2015-03-20 14:40:232015亚冠之阿尔纳斯尔
日期:2015-06-02 18:59:042015亚冠之阿尔希拉尔
日期:2015-06-30 15:22:572015亚冠之大阪钢巴
日期:2015-07-20 10:44:332015亚冠之阿尔纳斯尔
日期:2015-10-28 14:57:5215-16赛季CBA联赛之新疆
日期:2015-12-25 10:18:45黑曼巴
日期:2016-06-26 21:39:5315-16赛季CBA联赛之山西
日期:2016-07-25 21:54:2715-16赛季CBA联赛之北京
日期:2016-10-27 12:07:2315-16赛季CBA联赛之八一
日期:2017-07-07 16:39:0915-16赛季CBA联赛之吉林
日期:2017-09-04 12:14:43
2 [报告]
发表于 2014-09-24 20:55 |只看该作者
回复 1# tahaomei
上文本,和想要得到的结果,论坛里的大神们会帮助你!

   

论坛徽章:
0
3 [报告]
发表于 2014-09-24 21:05 |只看该作者
回复 2# zxy877298415


上啥文本?已经给出shell代码了啊,也说了,我想弄出股票代码和股票名称。


   

论坛徽章:
0
4 [报告]
发表于 2014-09-25 07:40 |只看该作者
没人回答啊?

论坛徽章:
14
15-16赛季CBA联赛之辽宁
日期:2019-06-16 15:47:3515-16赛季CBA联赛之广夏
日期:2016-08-13 21:24:352015亚冠之武里南联
日期:2015-07-07 17:37:372015亚冠之萨济拖拉机
日期:2015-07-06 17:07:482015亚冠之全北现代
日期:2015-06-04 13:54:272015亚冠之城南
日期:2015-05-21 15:43:212015年亚洲杯之伊朗
日期:2015-04-25 18:20:362015年亚洲杯之伊朗
日期:2015-04-20 16:06:052015年亚洲杯之科威特
日期:2015-03-07 12:51:26丑牛
日期:2014-12-30 10:26:38申猴
日期:2014-09-28 22:40:18金牛座
日期:2014-09-13 21:12:22
5 [报告]
发表于 2014-09-25 16:01 |只看该作者
  1. 练习。。路过。

  2. <?php
  3. $url= "http://quote.eastmoney.com/stocklist.html";
  4. $file = file_get_contents($url);
  5. $str = mb_convert_encoding($file,"UTF-8","GBK");
  6. $pa = '/<li><a target="_blank" href="(.*)">(.*)<\/a><\/li>/';
  7. preg_match_all($pa,$str,$matches);
  8. foreach ($matches[2] as $k => $v) {
  9.         echo $v."\n";
  10. }

  11. ?>

  12. 结果:
  13. 基金金泰(500001)
  14. 基金泰和(500002)
  15. 基金安信(500003)
  16. 基金汉盛(500005)
  17. 基金裕阳(500006)
  18. 基金景阳(500007)
复制代码

论坛徽章:
2
摩羯座
日期:2014-11-03 15:28:56卯兔
日期:2015-01-04 17:20:51
6 [报告]
发表于 2014-09-25 16:14 |只看该作者
回复 4# tahaomei


    公司这unix连的是内网,不知道curl $stocklist 取下来是啥样子

论坛徽章:
0
7 [报告]
发表于 2014-09-25 16:58 |只看该作者
本帖最后由 tahaomei 于 2014-09-25 17:16 编辑

回复 5# reb00t



谢谢,不过能否写成shell脚本呢?我刚才测试了您的php脚本,采用php -q yourphpfile.php ,结果屏幕没有任何输出。

   

论坛徽章:
0
8 [报告]
发表于 2014-09-25 17:01 |只看该作者
回复 6# bulletmarquis


那我把这个stocklist.html文件弄下来吧。见附件!


    stocklist.zip (43.36 KB, 下载次数: 10)

论坛徽章:
2
摩羯座
日期:2014-11-03 15:28:56卯兔
日期:2015-01-04 17:20:51
9 [报告]
发表于 2014-09-25 17:27 |只看该作者
回复 8# tahaomei


    gb2312改成gb18030试试

论坛徽章:
2
摩羯座
日期:2014-11-03 15:28:56卯兔
日期:2015-01-04 17:20:51
10 [报告]
发表于 2014-09-25 17:31 |只看该作者
回复 8# tahaomei


    目测问题是因为有的字符不在gb2312中,导致iconv找不到

从GB2312、GBK 到 GB18030,这些编码方法是向下兼容的,即同一个字符在这些方案中总是有相同的编码,后面的标准支持更多的字符


    再检查iconv,支持GB18030
  1. iconv -l|grep -i gb
  2. CN-GB//
  3. CSGB2312//
  4. CSISO58GB1988//
  5. EBCDIC-CP-GB//
  6. GB//
  7. GB2312//
  8. GB13000//
  9. GB18030//
  10. GBK//
  11. GB_1988-80//
  12. GB_198880//
  13. ISO646-GB//
复制代码
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP