论坛徽章:: 0

电梯直达

1楼 [收藏(0)] [报告]

发表于 2013-02-25 10:14 |只看该作者 |倒序浏览

本帖最后由 guguozhifeng 于 2013-02-25 11:52 编辑

(gdb) bt
#0  0x0000003ac6c6f261 in _IO_str_overflow_internal () from /lib64/libc.so.6
#1  0x0000003ac6c6e404 in _IO_default_xsputn_internal () from /lib64/libc.so.6
#2  0x0000003ac6c429f0 in vfprintf () from /lib64/libc.so.6
#3  0x0000003ac6c63cb9 in vsprintf () from /lib64/libc.so.6
#4  0x0000003ac6c4d698 in sprintf () from /lib64/libc.so.6
#5  0x00002aaaad0662e5 in doLogEx (pContext=0x2aaaad272800, tv=<value optimized out>, caption=0x2aaaad06e423 "ERROR",
text=0x41258d30 "file: ../common/fdht_proto.c, line: 38, server: 192.168.32.162:11411, recv data fail, errno: 107, error info: Transport endpoint is not connected", text_len=145, bNeedSync=0 '\0') at ../common/logger.c:372
#6  0x00002aaaad066530 in doLog (pContext=0x2aaaad272800, caption=0x2aaaad06e423 "ERROR",
text=0x41258d30 "file: ../common/fdht_proto.c, line: 38, server: 192.168.32.162:11411, recv data fail, errno: 107, error info: Transport endpoint is not connected", text_len=145, bNeedSync=0 '\0') at ../common/logger.c:417
#7  0x00002aaaad0669ae in logError (format=<value optimized out>) at ../common/logger.c:617
#8  0x00002aaaace53ea1 in fdht_recv_header (pServer=0x15745a8, in_bytes=0x4125968c) at ../common/fdht_proto.c:35
#9  0x00002aaaace576c5 in fdht_get_ex1 (pGroupArray=<value optimized out>, bKeepAlive=1 '\001', pKeyInfo=0x412599b0, expires=-1, ppValue=0x412599a8,
value_len=0x412599a4, malloc_func=0x3ac6c74de0 <malloc>) at fdht_client.c:415
#10 0x00002aaaad274843 in my_fdfs_get_file_id (pContext=<value optimized out>, my_file_id=<value optimized out>, fdfs_file_id=0x41259b30 "\200\235%A",
file_id_size=144) at my_fdfs_client.c:350
#11 0x00002aaaad2749d4 in my_fdfs_file_exist (pContext=0x41258a20, my_file_id=0x5b <Address 0x5b out of bounds>) at my_fdfs_client.c:612

我是将这个代码写入一个服务，在服务运行一段时间后就会重启一次，gdb调试后，发现my_fdfs_file_exist报错，而my_fdfs_file_exist 输入的参数是没有问题的，my_fdfs_file_exist 这个函数被调用了很多次，但是偶尔会报错。不知道怎么回事，有人遇到过没有，请教一下？

我跟踪了一下代码，发现fastdht 中logger.c 中doLogEx函数中有一个sprintf执行出错。
我初步估计是LogContext中的pcurrent_buff 和 log_buff 处理有问题。

报错的地方的代码：
      if ((pContext->pcurrent_buff - pContext->log_buff) + text_len + 64 \
                     > LOG_BUFF_SIZE)
      {
            log_fsync(pContext, false);
      }

      if (pContext->time_precision == LOG_TIME_PRECISION_SECOND)
      {
            buff_len = sprintf(pContext->pcurrent_buff, \
                     "[%04d-%02d-%02d %02d:%02d:%02d] ", \
                     tm.tm_year+1900, tm.tm_mon+1, tm.tm_mday, \
                     tm.tm_hour, tm.tm_min, tm.tm_sec);
      }
      else
      {
            buff_len = sprintf(pContext->pcurrent_buff, \
                     "[%04d-%02d-%02d %02d:%02d:%02d.%03d] ", \
                     tm.tm_year+1900, tm.tm_mon+1, tm.tm_mday, \
                     tm.tm_hour, tm.tm_min, tm.tm_sec, time_fragment);
      }
会不会是因为多线程使用，没有加锁（判断缓冲区大小时和使用sprintf时），导致sprintf 使用时，缓冲区大小不够了。

文库|博客

happy_fish100

巨富豪门

论坛徽章:: 4

2楼 [报告]

发表于 2013-02-25 13:11 |只看该作者

FastDHT和FastDFS的版本要匹配啊！

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

guguozhifeng

白手起家

论坛徽章:: 0

3楼 [报告]

发表于 2013-02-25 14:19 |只看该作者

版本匹配？我现在用的FastDFS_v4.01和FastDHT_v1.21。当时都是最新版啊，而且我也没有看到哪里说什么版本和什么版本配合使用啊。
而且我觉得这个不像版本问题啊。

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

happy_fish100

巨富豪门

论坛徽章:: 4

4楼 [报告]

发表于 2013-02-25 15:52 |只看该作者

FastDFS和FastDHT都升级到最新版本，然后试试

实战分享：从技术角度谈机器学习入门| 【大话IT】RadonDB低门槛向MySQL集群下战书 | ChinaUnix打赏功能已上线！ | 新一代分布式关系型数据库RadonDB知多少？

guguozhifeng

白手起家

论坛徽章:: 0

5楼 [报告]

发表于 2013-02-27 10:38 |只看该作者

本帖最后由 guguozhifeng 于 2013-02-27 10:39 编辑

我觉得不是版本问题啊，因为要跑了一段时间以后才会出错（如果是版本问题，不会执行很多次才会出错吧），而且这个错误（ recv data fail, errno: 107, error info: Transport endpoint is not connected）是socket recv返回的，这个可能是网络问题，或者什么问题。而且我觉得出错应该可以接受，但是为什么后来错误处理会出现程序崩溃的事情呢，我觉得是后来的日志输出那里有问题，如果这个问题解决了，程序可以继续运行，对实际的应用没有影响，因为返回执行不成功可以重复执行。回复 4# happy_fish100