免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 4331 | 回复: 8
打印 上一主题 下一主题

[C] linux爬虫url编码问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-10-14 22:14 |只看该作者 |倒序浏览
最近在linux下用c学习网络爬虫程序,每次爬取的url链接存储在本地磁盘中,需要时在从磁盘中读取url。
当链接包含中文时,想网站发送url时,会是乱码,请问大神,该如何解决?在线等!

论坛徽章:
17
处女座
日期:2013-08-27 09:59:352015亚冠之柏太阳神
日期:2015-07-30 10:16:402015亚冠之萨济拖拉机
日期:2015-07-29 18:58:182015年亚洲杯之巴勒斯坦
日期:2015-03-06 17:38:17摩羯座
日期:2014-12-11 21:31:34戌狗
日期:2014-07-20 20:57:32子鼠
日期:2014-05-15 16:25:21亥猪
日期:2014-02-11 17:32:05丑牛
日期:2014-01-20 15:45:51丑牛
日期:2013-10-22 11:12:56双子座
日期:2013-10-18 16:28:17白羊座
日期:2013-10-18 10:50:45
2 [报告]
发表于 2013-10-14 22:34 |只看该作者
回复 1# zxlkiyu

链接内容是不能有中文的,所以有中文都经过了编码,你怎么可能抓到含”中文明文“的链接呢。中文编码在链接中会选择某种中文编码先编码(gb2312 or utf-。可以看看libcurl。
   

论坛徽章:
0
3 [报告]
发表于 2013-10-14 22:50 |只看该作者
回复 2# myworkstation


    谢谢您的回复!
举个例子:网站A为gb2312编码,下面包含一些中文链接a,b,c,这些中文链接应该时经过gb2312编码过的,获取a,b,c后通过creat写入到文件中,
然后在read到爬取队列中,然后通过socket发送 html请求(GET 中文链接a),这是发送过去的就是乱码了,请问是什么原因!

论坛徽章:
17
处女座
日期:2013-08-27 09:59:352015亚冠之柏太阳神
日期:2015-07-30 10:16:402015亚冠之萨济拖拉机
日期:2015-07-29 18:58:182015年亚洲杯之巴勒斯坦
日期:2015-03-06 17:38:17摩羯座
日期:2014-12-11 21:31:34戌狗
日期:2014-07-20 20:57:32子鼠
日期:2014-05-15 16:25:21亥猪
日期:2014-02-11 17:32:05丑牛
日期:2014-01-20 15:45:51丑牛
日期:2013-10-22 11:12:56双子座
日期:2013-10-18 16:28:17白羊座
日期:2013-10-18 10:50:45
4 [报告]
发表于 2013-10-14 23:20 |只看该作者
回复 3# zxlkiyu

从文件中读出来的是乱码吗?http协议是正确的吗?
   

论坛徽章:
0
5 [报告]
发表于 2013-10-14 23:26 |只看该作者
回复 4# myworkstation


    文件读出来是正确的,设置终端为相应编码,可以显示中文,发送过去后就是乱码了。

论坛徽章:
0
6 [报告]
发表于 2013-10-15 09:11 |只看该作者

论坛徽章:
13
双鱼座
日期:2013-10-23 09:30:05数据库技术版块每日发帖之星
日期:2016-04-20 06:20:00程序设计版块每日发帖之星
日期:2016-03-09 06:20:002015亚冠之塔什干火车头
日期:2015-11-02 10:07:452015亚冠之德黑兰石油
日期:2015-08-30 10:07:07数据库技术版块每日发帖之星
日期:2015-08-28 06:20:00数据库技术版块每日发帖之星
日期:2015-08-05 06:20:002015年迎新春徽章
日期:2015-03-04 09:57:09辰龙
日期:2014-12-03 14:45:52酉鸡
日期:2014-07-23 09:46:23亥猪
日期:2014-03-13 08:46:22金牛座
日期:2014-02-11 09:36:21
7 [报告]
发表于 2013-10-15 09:20 |只看该作者
链接都是要进行urlencode的啊

论坛徽章:
17
处女座
日期:2013-08-27 09:59:352015亚冠之柏太阳神
日期:2015-07-30 10:16:402015亚冠之萨济拖拉机
日期:2015-07-29 18:58:182015年亚洲杯之巴勒斯坦
日期:2015-03-06 17:38:17摩羯座
日期:2014-12-11 21:31:34戌狗
日期:2014-07-20 20:57:32子鼠
日期:2014-05-15 16:25:21亥猪
日期:2014-02-11 17:32:05丑牛
日期:2014-01-20 15:45:51丑牛
日期:2013-10-22 11:12:56双子座
日期:2013-10-18 16:28:17白羊座
日期:2013-10-18 10:50:45
8 [报告]
发表于 2013-10-15 11:51 |只看该作者
回复 5# zxlkiyu


    你的说法有问题,中文链接其真正的链接都是经过编码的,你终端再怎么设置也不可能显示出中文来。比如说你的链接是这样“http://www.baidu.com/s?wd=%E4%B8%AD%E6%96%87”而不是这样“http://www.baidu.com/s?wd=中文”。我想你没有表达清楚你的问题。

论坛徽章:
59
2015年亚洲杯之约旦
日期:2015-01-27 21:27:392015年亚洲杯之日本
日期:2015-02-06 22:09:41拜羊年徽章
日期:2015-03-03 16:15:432015年辞旧岁徽章
日期:2015-03-03 16:54:152015年迎新春徽章
日期:2015-03-04 09:50:282015元宵节徽章
日期:2015-03-06 15:50:392015年亚洲杯之阿联酋
日期:2015-03-19 17:39:302015年亚洲杯之中国
日期:2015-03-23 18:52:23巳蛇
日期:2014-12-14 22:44:03双子座
日期:2014-12-10 21:39:16处女座
日期:2014-12-02 08:03:17天蝎座
日期:2014-07-21 19:08:47
9 [报告]
发表于 2013-10-15 12:33 |只看该作者
你要读文件http头, 爱它用的什么编码。
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP