免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 6570 | 回复: 5
打印 上一主题 下一主题

求解:libxml2 解析GBK编码问题 [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-06-18 13:48 |只看该作者 |倒序浏览
本帖最后由 jfxl 于 2012-06-18 13:49 编辑
  1. <?xml version="1.0" encoding="GBK" standalone="yes" ?>
  2. <resultset xmlns="">
  3.         <version>V4.0</version>
  4.         <status>ok</status>
  5.         <metainfo>
  6.                 <miele key="searched" val="3688611" />
  7.                 <miele key="returned" val="11" />
  8.                 <miele key="found" val="11" />
  9.                 <miele key="restrict" val="18" />
  10.                 <miele key="prevpage" val="0" />
  11.                 <miele key="nextpage" val="0" />
  12.                 <miele key="time" val="00015" />
  13.         </metainfo>
  14.         <echokeyset count="1">
  15.                 <echokey>ICE</echokey>
  16.         </echokeyset>
  17.         <docset>
  18.                 <docele>
  19.                       <docitem key="attr_desc">9℃</docitem>
  20.                 </docele>
  21.         </docset>
  22. </resultset>
复制代码
报错:
  1. encoding error : input conversion failed due to input error, bytes 0x83 0x3C 0x2F 0x64
  2. encoding error : input conversion failed due to input error, bytes 0x83 0x3C 0x2F 0x64
  3. I/O error : encoder error
  4. xmlDoc:19: parser error : Premature end of data in tag docitem line 19
  5.                         <docitem key="attr_desc">9鈩
复制代码

论坛徽章:
0
2 [报告]
发表于 2012-06-18 13:53 |只看该作者
  1. int main(int argc, const char** argv)
  2. {
  3.    
  4.         xmlDocPtr doc;
  5.         xmlNodePtr curNode;
  6.         xmlChar *pszContent;
  7.         string docName = argv[1];

  8.         doc = xmlReadFile(docName.c_str(), "GBK", XML_PARSE_NOBLANKS);
  9.         //doc = xmlReadFile(docName.c_str(), "GBK", XML_PARSE_RECOVER);
  10.         if (NULL == doc)
  11.         {   
  12.                 cerr << "xmlReadFile failed!" << endl;
  13.                 return -1;
  14.         }   

  15.         //获取doc根节点
  16.         curNode = xmlDocGetRootElement(doc);
  17.         if (NULL == curNode)
  18.         {   
  19.                 cerr << "xmlDocGetRootElement failed!" << endl;
  20.                 xmlFreeDoc(doc);
  21.                 return -2;
  22.         }   
  23.         cout << "root node name = " << curNode->name << endl;
  24.    
  25.         curNode = curNode->xmlChildrenNode;
  26.         while (xmlStrcmp(curNode->name, (const xmlChar*)"docset"))
  27.         {
  28.                 curNode = curNode->next;
  29.                 if (NULL == curNode)
  30.                 {
  31.                         cerr << "this xmldoc hasn't docset node!!!" << endl;
  32.                         return -4;
  33.                 }
  34.         }

  35.         //get docele node
  36.         curNode = curNode->xmlChildrenNode;
  37.         xmlNodePtr doceleNode;
  38.         doceleNode = curNode;
  39.         xmlAttrPtr attrPtr;
  40.         xmlChar* pszAttr;
  41.         while (NULL != doceleNode && !xmlStrcmp(doceleNode->name, (const xmlChar*)"docele"))
  42.         {
  43.                 //get docitem node
  44.                 curNode = doceleNode->xmlChildrenNode;
  45.                 while (NULL != curNode && !xmlStrcmp(curNode->name, (const xmlChar*)"docitem"))
  46.                 {
  47.                         //get node properties value
  48.                         attrPtr = curNode->properties;
  49.                         if (!xmlStrcmp(attrPtr->name, (const xmlChar*)"key"))
  50.                         {
  51.                                 pszAttr = xmlGetProp(curNode, BAD_CAST "key");
  52.                         }

  53.                         //get node content value
  54.                         pszContent =xmlNodeGetContent(curNode);
  55.                         cout << pszAttr << " = " << pszContent << endl;

  56.                         //get next docitem node
  57.                         curNode = curNode->next;
  58.                 }

  59.                 //get next docele node
  60.                 doceleNode = doceleNode->next;
  61.         }
  62. #if 0
  63.         //get resultset node child node!!!
  64.         curNode = curNode->xmlChildrenNode;

  65.         //find docset node!!!
  66.         while (xmlStrcmp(curNode->name, (const xmlChar*)"docset"))
  67.         {
  68.                 curNode = curNode->next;
  69.         }
  70.         cout << "docset node name = " << curNode->name << endl;

  71.         //get docele node!!!
  72.         curNode = curNode->children;
  73.         cout << "decele node name = " << curNode->name << endl;

  74.         if (xmlStrcmp(curNode->name, BAD_CAST "docele"))
  75.         {
  76.                 cerr << "xmlStrcmp failed!" << endl;
  77.                 xmlFreeDoc(doc);
  78.                 return -3;
  79.         }

  80.         curNode = curNode->xmlChildrenNode;
  81.         xmlNodePtr propNodePtr = curNode;
  82.         while (NULL != curNode)
  83.         {
  84. #if 0
  85.                 if ((!xmlStrcmp(curNode->name, (const xmlChar*)"docitem")))
  86.                 {
  87.                         pszKey = xmlNodeGetContent(curNode);
  88.                         cout << pszKey << endl;
  89.                         xmlFree(pszKey);
  90.                 }
  91. #endif
  92.                 if (xmlHasProp(curNode, BAD_CAST "key"))
  93.                 {
  94.                         propNodePtr = curNode;
  95.                         xmlAttrPtr attrPtr = propNodePtr->properties;
  96.                         while (NULL != attrPtr)
  97.                         {   
  98.                                 if (!xmlStrcmp(attrPtr->name, (const xmlChar*)"key"))
  99.                                 {   
  100.                                         xmlChar* pszAttr = xmlGetProp(propNodePtr, BAD_CAST "key");
  101.                                         cout << pszAttr << endl;
  102.                                         xmlFree(pszAttr);
  103.                                 }   
  104.                                         attrPtr = attrPtr->next;
  105.                         }   
  106.                 }

  107.                 if ((!xmlStrcmp(curNode->name, (const xmlChar*)"docitem")))
  108.                 if (NULL == curNode)
  109.                 {
  110.                         cerr << "this xmldoc hasn't docset node!!!" << endl;
  111.                         return -4;
  112.                 }
  113.         }

  114.         //get docele node
  115.         curNode = curNode->xmlChildrenNode;
  116.         xmlNodePtr doceleNode;
  117.         doceleNode = curNode;
  118.         xmlAttrPtr attrPtr;
  119.         xmlChar* pszAttr;
  120.         while (NULL != doceleNode && !xmlStrcmp(doceleNode->name, (const xmlChar*)"docele"))
  121.         {
  122.                 //get docitem node
  123.                 curNode = doceleNode->xmlChildrenNode;
  124.                 while (NULL != curNode && !xmlStrcmp(curNode->name, (const xmlChar*)"docitem"))
  125.                 {
  126.                         //get node properties value
  127.                         attrPtr = curNode->properties;
  128.                         if (!xmlStrcmp(attrPtr->name, (const xmlChar*)"key"))
  129.                         {
  130.                                 pszAttr = xmlGetProp(curNode, BAD_CAST "key");
  131.                         }

  132.                         //get node content value
  133.                         pszContent =xmlNodeGetContent(curNode);
  134.                         cout << pszAttr << " = " << pszContent << endl;

  135.                         //get next docitem node
  136.                         curNode = curNode->next;
  137.                 }

  138.                 //get next docele node
  139.                 doceleNode = doceleNode->next;
  140.         }
复制代码

论坛徽章:
1
巳蛇
日期:2013-10-28 15:55:33
3 [报告]
发表于 2012-06-18 23:19 |只看该作者
本帖最后由 惟吾无为 于 2012-06-18 23:20 编辑

转为utf-8不就得了,gbk不是国际标准,别指望外国人解决。

论坛徽章:
0
4 [报告]
发表于 2012-06-19 09:47 |只看该作者
惟吾无为 发表于 2012-06-18 23:19
转为utf-8不就得了,gbk不是国际标准,别指望外国人解决。


是啊要转码,不过我转了几次都没成功
  1. iconv_t         iconv_utf8_gbk;
  2. iconv_t         iconv_gbk_utf8;

  3. int gbk_input (unsigned char *out, int *outlen, const unsigned char *in,
  4.                int *inlen)
  5. {
  6.     char           *outbuf = (char *) out;
  7.     char           *inbuf = (char *) in;
  8.     size_t          rslt;
  9.     rslt = iconv(iconv_utf8_gbk, ( char **)&inbuf, (size_t *) inlen,( char**)&outbuf, (size_t *) outlen);
  10.     if (rslt < 0)
  11.         return rslt;
  12.     *outlen = ((unsigned char *) outbuf - out);
  13.     *inlen = ((unsigned char *) inbuf - in);
  14.     return *outlen;
  15. }

  16. int gbk_output (unsigned char *out,
  17.                 int *outlen, const unsigned char *in, int *inlen)
  18. {
  19.     char           *outbuf = (char *) out;
  20.     char           *inbuf = (char *) in;
  21.     size_t          rslt;
  22.     rslt =
  23.         iconv (iconv_gbk_utf8, (char **) &inbuf, (size_t *) inlen,
  24.                &outbuf, (size_t *) outlen);
  25.     if (rslt < 0)
  26.         return rslt;
  27.     *outlen = ((unsigned char *) outbuf - out);
  28.     *inlen = ((unsigned char *) inbuf - in);
  29.     return *outlen;
  30. }




  31. string&  replace_all_distinct(string&   str,const   string&   old_value,const   string&   new_value)
  32. {
  33.         for(string::size_type   pos(0);   pos!=string::npos;   pos+=new_value.length())   {
  34.                 if(   (pos=str.find(old_value,pos))!=string::npos   )
  35.                         str.replace(pos,old_value.length(),new_value);
  36.                 else
  37.                         break;
  38.         }
  39.         return   str;
  40. }



  41. int main(int argc, const char** argv)
  42. {

  43.         xmlDocPtr doc;
  44.         xmlNodePtr curNode;
  45.         xmlChar *pszContent;
  46.         string docName = argv[1];

  47.         iconv_utf8_gbk = iconv_open("utf-8", "gbk");
  48.         iconv_gbk_utf8 = iconv_open("gbk", "utf-8");

  49.         xmlNewCharEncodingHandler("gb2312", gbk_input, gbk_output);//添加gb2312编码支持
  50.         xmlNewCharEncodingHandler("gbk", gbk_input, gbk_output);//添加gbk编码支持

  51.         //doc = xmlReadFile(docName.c_str(), "GBK", XML_PARSE_NOBLANKS);
  52.         //doc = xmlParseFile(docName.c_str());

  53.         doc = xmlReadFile(docName.c_str(), "gbk", 0);

  54.         //doc = xmlReadFile(docName.c_str(), "GBK", XML_PARSE_RECOVER);
  55.         if (NULL == doc)
  56.         {
  57.                 cerr << "xmlReadFile failed!" << endl;
  58.                 return -1;
  59.         }

  60.         //获取doc根节点
  61.         curNode = xmlDocGetRootElement(doc);
  62.         if (NULL == curNode)
  63.         {
  64.                 cerr << "xmlDocGetRootElement failed!" << endl;
  65.                 xmlFreeDoc(doc);
  66.                 return -2;
  67.         }
  68.         cout << "root node name = " << curNode->name << endl;

  69.         curNode = curNode->xmlChildrenNode;
  70.         while (xmlStrcmp(curNode->name, (const xmlChar*)"docset"))
  71.         {
  72.                 curNode = curNode->next;
  73.                 if (NULL == curNode)
  74.                 {
  75.                         cerr << "this xmldoc hasn't docset node!!!" << endl;
  76.                         return -4;
  77.                 }
  78.         }

  79.         //get docele node
  80.         curNode = curNode->xmlChildrenNode;
  81.         xmlNodePtr doceleNode;
  82.         doceleNode = curNode;
  83.         xmlAttrPtr attrPtr;
  84.         xmlChar* pszAttr;
  85.         while (NULL != doceleNode && !xmlStrcmp(doceleNode->name, (const xmlChar*)"docele"))
  86.         {
  87.                 //get docitem node
  88.                 curNode = doceleNode->xmlChildrenNode;
  89.                 while (NULL != curNode && !xmlStrcmp(curNode->name, (const xmlChar*)"docitem"))
  90.                 {
  91.                         //get node properties value
  92.                         attrPtr = curNode->properties;
  93.                         if (!xmlStrcmp(attrPtr->name, (const xmlChar*)"key"))
  94.                         {
  95.                                 pszAttr = xmlGetProp(curNode, BAD_CAST "key");
  96.                         }

  97.                         //get node content value
  98.                         pszContent =xmlNodeGetContent(curNode);
  99.                         //ConvertEnc("utf-8", "gb2312", (char *)xmlNodeGetContent(curNode));
  100.                         cout << pszAttr << " = " << pszContent << endl;

  101.                         //get next docitem node
  102.                         curNode = curNode->next;
  103.                 }

  104.                 //get next docele node
  105.                 doceleNode = doceleNode->next;
  106.         }
  107. #if 0
  108.         //get resultset node child node!!!
  109.         curNode = curNode->xmlChildrenNode;

  110.         //find docset node!!!
  111.         while (xmlStrcmp(curNode->name, (const xmlChar*)"docset"))
  112.         {
  113.                 curNode = curNode->next;
  114.         }
  115.         cout << "docset node name = " << curNode->name << endl;

  116.         //get docele node!!!
  117.         curNode = curNode->children;
  118.         cout << "decele node name = " << curNode->name << endl;

  119.         if (xmlStrcmp(curNode->name, BAD_CAST "docele"))
  120.         {
  121.                 cerr << "xmlStrcmp failed!" << endl;
  122.                 xmlFreeDoc(doc);
  123.                 return -3;
  124.         }

  125.         curNode = curNode->xmlChildrenNode;
复制代码

论坛徽章:
1
巳蛇
日期:2013-10-28 15:55:33
5 [报告]
发表于 2012-06-19 09:51 |只看该作者
我还在学C,不大看的懂。

有没有报错?定位出错环节再修改。

论坛徽章:
0
6 [报告]
发表于 2012-06-20 10:53 |只看该作者
上网搜个GBK转UTF-8的代码就可以了
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP