免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 6570 | 回复: 9
打印 上一主题 下一主题

[Veritas NBU] NBU7102备份文件,中间经过NAT转换,报错13/24/42/58 [复制链接]

论坛徽章:
2
数据库技术版块每日发帖之星
日期:2015-06-19 22:20:00IT运维版块每日发帖之星
日期:2016-06-30 06:20:00
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2013-12-27 14:50 |只看该作者 |倒序浏览
本帖最后由 rand1985 于 2013-12-27 18:09 编辑

环境:
master server: aix 6.1
client: windows 2008 R2(是集群)
NBU:7.1.0.2

master 与client之间有防火墙,NAT

备份文件,文件总量有510GB,文件数量有130万左右
在备份过程中,备份报错:13、24、42、58
其中多以24,42出现

测试后发现,小的文件夹可以备份完成,但是大的文件夹无法完成备份。报错24,42,13。


client 端的bkbkar的日志(部分):
15:59:39.069: [5992.7116] <2> TransporterRemote::write[2](): DBG -  | An Exception of type [SocketWriteException] has occured at: |   Module: @(#) $Source: src/ncf/tfi/lib/TransporterRemote.cpp,v $ $Revision: 1.54 $ , Function: TransporterRemote::write[2](), Line: 321 |   Local Address: [::]:0 |   Remote Address: [::]:0 |   OS Error: 10054 (远程主机强迫关闭了一个现有的连接。
) |   Expected bytes: 16384 |  (../TransporterRemote.cpp:321)
15:59:39.069: [5992.7116] <16> tar_tfi::processException:
An Exception of type [SocketWriteException] has occured at:
  Module: @(#) $Source: src/ncf/tfi/lib/TransporterRemote.cpp,v $ $Revision: 1.54 $ , Function: TransporterRemote::write[2](), Line: 321
  Module: @(#) $Source: src/ncf/tfi/lib/Packer.cpp,v $ $Revision: 1.89 $ , Function: Packer::getBuffer(), Line: 656
  Module: tar_tfi::getBuffer, Function: H:\71\src\cl\clientpc\util\tar_tfi.cpp, Line: 312
  Local Address: [::]:0
  Remote Address: [::]:0
  OS Error: 10054 (远程主机强迫关闭了一个现有的连接。
)
  Expected bytes: 16384


作业详情:


2013-12-25 16:08:58 - Info nbjm (pid=7733264) starting backup job (jobid=59994) for client hzcmbdfs, policy hzcmbdfs, schedule hzcmbdfs-auto
2013-12-25 16:08:58 - Info nbjm (pid=7733264) requesting STANDARD_RESOURCE resources from RB for backup job (jobid=59994, request id:{CEB1A308-6D3B-11E3-9066-759916130000})
2013-12-25 16:08:58 - requesting resource hz_nbu-hcart2-robot-tld-0
2013-12-25 16:08:58 - requesting resource hz_nbu.NBU_CLIENT.MAXJOBS.hzcmbdfs
2013-12-25 16:08:58 - requesting resource hz_nbu.NBU_POLICY.MAXJOBS.hzcmbdfs
2013-12-25 16:08:59 - granted resource  hz_nbu.NBU_CLIENT.MAXJOBS.hzcmbdfs
2013-12-25 16:08:59 - granted resource  hz_nbu.NBU_POLICY.MAXJOBS.hzcmbdfs
2013-12-25 16:08:59 - granted resource  HZ0019
2013-12-25 16:08:59 - granted resource  HP.ULTRIUM5-SCSI.000
2013-12-25 16:08:59 - granted resource  hz_nbu-hcart2-robot-tld-0
2013-12-25 16:08:59 - estimated 505568104 kbytes needed
2013-12-25 16:08:59 - Info nbjm (pid=7733264) started backup job for client hzcmbdfs, policy hzcmbdfs, schedule hzcmbdfs-auto on storage unit hz_nbu-hcart2-robot-tld-0
2013-12-25 16:08:59 - started process bpbrm (pid=8061202)
2013-12-25 16:09:04 - Info bpbrm (pid=8061202) hzcmbdfs is the host to backup data from
2013-12-25 16:09:04 - Info bpbrm (pid=8061202) reading file list from client
2013-12-25 16:09:04 - connecting
2013-12-25 16:09:07 - Info bpbrm (pid=8061202) starting bpbkar on client
2013-12-25 16:09:07 - connected; connect time: 0:00:00
2013-12-25 16:09:09 - Info bpbkar (pid=4520) Backup started
2013-12-25 16:09:09 - Info bpbrm (pid=8061202) bptm pid: 6422646
2013-12-25 16:09:09 - Info bptm (pid=6422646) start
2013-12-25 16:09:09 - Info bptm (pid=6422646) using 65536 data buffer size
2013-12-25 16:09:09 - Info bptm (pid=6422646) using 30 data buffers
2013-12-25 16:09:09 - Info bptm (pid=6422646) start backup
2013-12-25 16:09:09 - Info bptm (pid=6422646) backup child process is pid 8323386
2013-12-25 16:09:09 - Info bptm (pid=6422646) Waiting for mount of media id HZ0019 (copy 1) on server hz_nbu.
2013-12-25 16:09:09 - mounting HZ0019
2013-12-25 16:09:56 - Info bptm (pid=6422646) media id HZ0019 mounted on drive index 0, drivepath /dev/rmt0.1, drivename HP.ULTRIUM5-SCSI.000, copy 1
2013-12-25 16:09:56 - mounted HZ0019; mount time: 0:00:47
2013-12-25 16:09:56 - positioning HZ0019 to file 31
2013-12-25 16:11:38 - positioned HZ0019; position time: 0:01:42
2013-12-25 16:11:38 - begin writing
2013-12-25 16:22:04 - Error bptm (pid=8323386) system call failed - A connection with a remote socket was reset by that socket. (at child.c.1295)
2013-12-25 16:22:04 - Error bptm (pid=8323386) unable to perform read from client socket, connection may have been broken
2013-12-25 16:22:04 - Critical bpbrm (pid=8061202) from client hzcmbdfs: FTL - socket write failed
2013-12-25 16:22:46 - Info bptm (pid=6422646) EXITING with status 42 <----------
2013-12-25 16:22:46 - Error bpbrm (pid=8061202) could not send server status message
2013-12-25 16:22:48 - Info bpbkar (pid=4520) done. status: 42: network read failed
2013-12-25 16:22:48 - end writing; write time: 0:11:10
network read failed  (42)



******

******
2013-12-25 15:02:50 - Info nbjm (pid=7733264) starting backup job (jobid=59993) for client hzcmbdfs, policy hzcmbdfs, schedule hzcmbdfs-auto
2013-12-25 15:02:50 - Info nbjm (pid=7733264) requesting STANDARD_RESOURCE resources from RB for backup job (jobid=59993, request id:{91600EBC-6D32-11E3-9069-61546DD60000})
2013-12-25 15:02:50 - requesting resource hz_nbu-hcart2-robot-tld-0
2013-12-25 15:02:50 - requesting resource hz_nbu.NBU_CLIENT.MAXJOBS.hzcmbdfs
2013-12-25 15:02:50 - requesting resource hz_nbu.NBU_POLICY.MAXJOBS.hzcmbdfs
2013-12-25 15:02:50 - granted resource  hz_nbu.NBU_CLIENT.MAXJOBS.hzcmbdfs
2013-12-25 15:02:50 - granted resource  hz_nbu.NBU_POLICY.MAXJOBS.hzcmbdfs
2013-12-25 15:02:50 - granted resource  HZ0019
2013-12-25 15:02:50 - granted resource  HP.ULTRIUM5-SCSI.003
2013-12-25 15:02:50 - granted resource  hz_nbu-hcart2-robot-tld-0
2013-12-25 15:02:50 - estimated 505568104 kbytes needed
2013-12-25 15:02:50 - Info nbjm (pid=7733264) started backup job for client hzcmbdfs, policy hzcmbdfs, schedule hzcmbdfs-auto on storage unit hz_nbu-hcart2-robot-tld-0
2013-12-25 15:02:50 - started process bpbrm (pid=9044320)
2013-12-25 15:02:55 - Info bpbrm (pid=9044320) hzcmbdfs is the host to backup data from
2013-12-25 15:02:55 - Info bpbrm (pid=9044320) reading file list from client
2013-12-25 15:02:55 - connecting
2013-12-25 15:03:05 - Info bpbrm (pid=9044320) starting bpbkar on client
2013-12-25 15:03:05 - connected; connect time: 0:00:00
2013-12-25 15:03:07 - Info bpbkar (pid=2656) Backup started
2013-12-25 15:03:07 - Info bpbrm (pid=9044320) bptm pid: 9175096
2013-12-25 15:03:08 - Info bptm (pid=9175096) start
2013-12-25 15:03:08 - Info bptm (pid=9175096) using 65536 data buffer size
2013-12-25 15:03:08 - Info bptm (pid=9175096) using 30 data buffers
2013-12-25 15:03:08 - Info bptm (pid=9175096) start backup
2013-12-25 15:03:08 - Info bptm (pid=9175096) backup child process is pid 8978612
2013-12-25 15:03:08 - Info bptm (pid=9175096) Waiting for mount of media id HZ0019 (copy 1) on server hz_nbu.
2013-12-25 15:03:08 - mounting HZ0019
2013-12-25 15:04:10 - Info bptm (pid=9175096) media id HZ0019 mounted on drive index 4, drivepath /dev/rmt3.1, drivename HP.ULTRIUM5-SCSI.003, copy 1
2013-12-25 15:04:10 - mounted HZ0019; mount time: 0:01:02
2013-12-25 15:04:10 - positioning HZ0019 to file 31
2013-12-25 15:05:50 - positioned HZ0019; position time: 0:01:40
2013-12-25 15:05:50 - begin writing
2013-12-25 15:21:04 - Error bptm (pid=8978612) system call failed - A connection with a remote socket was reset by that socket. (at child.c.1295)
2013-12-25 15:21:04 - Critical bpbrm (pid=9044320) from client hzcmbdfs: FTL - socket write failed
2013-12-25 15:21:04 - Error bptm (pid=8978612) unable to perform read from client socket, connection may have been broken
2013-12-25 15:21:04 - Error bptm (pid=9175096) media manager terminated by parent process
2013-12-25 15:22:03 - Error bpbrm (pid=9044320) could not send server status message
2013-12-25 15:22:05 - Info bpbkar (pid=2656) done. status: 24: socket write failed
2013-12-25 15:22:05 - end writing; write time: 0:16:15
socket write failed  (24)

请教!!!

论坛徽章:
2
数据库技术版块每日发帖之星
日期:2015-06-19 22:20:00IT运维版块每日发帖之星
日期:2016-06-30 06:20:00
2 [报告]
发表于 2013-12-27 17:03 |只看该作者
这个是一个比较大的文件备份,在将此备份策略进行拆分以后,数据量小的文件都可以备份完成,但是数据量大的文件无法成功,报错13、24、42还有58

做过如下测试:
1、拆分备份策略
2、使用多数据流备份
3、使用flashbackup-windows方式备份

备份时间在18分钟左右,备份速度在15MB(千兆网卡)


相关调整:

1、timeout值设为7200 (client read timeout ,client connect timeout )
2、communications buffer szie=128 kilo(原值为16)
3、FW上做一对一转换


请教!

招聘 : 研发工程师
论坛徽章:
0
3 [报告]
发表于 2013-12-28 15:39 |只看该作者
基本上看应该还是网络连接的问题。可能是网络负荷太高。
检查一下“Problems report”看里面有没有什么提示信息? 然后再具体看一下NBU的log了

论坛徽章:
2
数据库技术版块每日发帖之星
日期:2015-06-19 22:20:00IT运维版块每日发帖之星
日期:2016-06-30 06:20:00
4 [报告]
发表于 2013-12-30 10:40 |只看该作者
回复 3# maoj2008


    谢谢maoj2008

网络备份速度:
  使用多数据流备份的速度可以达到15*4 MB/s;无论是ms-windows 还是flashbackup-windows  速度都在18MB/s ,只是在最后报错的时候备份速度有时会下降到8MB/s
而且备份时段也是放在单独的空闲时间。

论坛徽章:
0
5 [报告]
发表于 2014-01-03 22:30 |只看该作者
回复 2# rand1985


调小keep ailve interval看看:
http://www.symantec.com/business ... t&id=TECH188129

论坛徽章:
2
数据库技术版块每日发帖之星
日期:2015-06-19 22:20:00IT运维版块每日发帖之星
日期:2016-06-30 06:20:00
6 [报告]
发表于 2014-02-21 09:33 |只看该作者
回复 5# netdaddy

谢谢netdaddy

这些都调整过,效果不明显。备份同样报错!

论坛徽章:
2
数据库技术版块每日发帖之星
日期:2015-06-19 22:20:00IT运维版块每日发帖之星
日期:2016-06-30 06:20:00
7 [报告]
发表于 2014-02-21 09:46 |只看该作者
针对报错做过以下的调整:

在master 和client上创建分别调试日志


打开master server 和 client端的日志级别,确认legacy log VERBOSE = 5
Master server 上,确认添加VERBOSE = 5 到 /usr/openv/netbackup/bp.conf 文件,
可以执行命令/usr/openv/netbackup/bin/admincmd/ bprdreq  –rereadconfig
也可以重启NBU服务。
在master server上创建的调试日志目录有:
/usr/openv/netbackup/logs/bptm
/usr/openv/netbackup/logs/bpcd
/usr/openv/netbackup/logs/vnetd

在使用flashbackup-windows备份类型测试的时候,创建bpfis文件


client server上,点击“开始 >所有程序>Symantec NetBackup>Backup Archive & Restore“ ,
在BAR console界面, File >  Netbackup Client Properties > Troubleshooting, 设置General level为2, Verbose level为5 。
重启NBU服务
创建的日志目录有:
<install_path>\netbackup\logs\bpbkar
<install_path>\netbackup\logs\bpbrm
<install_path>\netbackup\logs\bpcd
<install_path>\netbackup\logs\vnetd

就NBU给出的报错信息,初步判断NBU备份报错是因为client与master server的联接上有问题

1、检查当前NBU master  server和client的hosts解析;
2、咨询客户最近一段时间的环境变化,主要是client ,Firewall和 网络上的变更,确认后,最近无相关变更;
3、检查当前报错信息,观察其特点

******

1、修改hosts文件,使得NBU的解析更明确,和优先
2、调整timeout值【当前的timeout值默认为300,在上次已经将master server的timeout值修改为7200,client端的timeout未做修改】
在master server上timeout值
Console-master servers-双击master server-在打开窗口点击timeout-client read timeout及client connect timeout,由300调整到7200
在client上timeout值
Console-Clients-双击对应clients-在打开窗口点击timeout-client read timeout(只有一个参数)由300调整到7200
3、/usr/openv/netbackup/bp.conf
在这个文件中添加一行信息(请一定注意大小写)
REQUIRED_INTERFACE = 10.60.7.66  
【master server和media server上都有相同的参数,在master server,7.1版本上有bp.conf 文件下的REQUIRED_NETWORK参数,
在media server上有REQUIRED_INTERFACE = host_name参数】

******
1、在master server上修改tcp_keepidle值
/usr/sbin/no -o tcp_keepidle=600 (NBU要求改成5分钟)
备注:此种类型的修改不是永久修改,aix 系统重启后,会自动失效
2、修改联接缓冲区的值【默认是16 kb,修改为128 】
修改Console- Host Properties-Clients- Client Properties-Windows Client - ClientSettings -
Communication buffer size = 128
修改完成后重启NBU服务
3、修改客户端注册表
HKEY_LOCAL_MACHINE\SOFTWARE\VERITAS\NetBackup\CurrentVersion\Config, specify
a registry value (of type "String") called "REQUIRED_INTERFACE" 值为99.60.4.92
【此地址是目前群集的活动节点的管理IP address】   

******
1、在Windows 平台上, 利用regedit来修改系统注册表,
修改HKEY_LOCAL_MACHINE\\SYSTEM\CurrentControlSet\Services\Tcpip\Parameters下的以下三个参数:
(默认都没有,需要新建,重启操作系统)
KeepAliveTime,设置其值为300000(单位为毫秒,300000代表5分钟) (Type: REG_DWORD)
KeepAliveInterval,设置其值为1000 (Type: REG_DWORD)
TcpMaxDataRetransmissions,设置其值为5(Type: REG_DWORD)
2、 HKEY_LOCAL_MACHINE\Software\VERITAS\NetBackup\CurrentVersion\Config

In the Config registry key, create a new key called NTIO

In the NTIO registry key, create a REG_DWORD value, give it the name UseNTIO, and the value 0 (zero)

Note: Fast I/O is enabled by default.  Setting the UseNTIO registry key set to zero (0) disables Fast I/O.

To enable NTIO set the registry key to one (1) or remove the key.
3、在备份策略上增加checkpoint 为10min
4、netsh int tcp global autotuning = disabled
    netsh int tcp global chimney = disabled
5、master server(unix)上调整:
   /usr/sbin/no -o tcp_keepinit=50
   /usr/sbin/no -o tcp_keepintvl=50
   
*******
1、更改被备份策略的备份方式,将现有策略拆分为多个策略 备份类型为 MS-windows;
2、更改被备份策略的备份方式,使用Flashbackup-windows 方式备份;
3、更改被备份策略的备份方式,使用多数据流方式备份
4、对备份网络做优化:/usr/openv/netbackup/NET_BUFFER_SZ    ----131072  ---262144


******
1、更改防火墙参数:延迟参数,设置为7200
2、设置防火墙的的访问控制地址转换为长链接
3、将firewall的OS管理系统的快速长链接重用设置为:开

*******
1、升级NIC驱动程序和firmware
2、将网卡配置为全双工,是服务器和交换机相匹配

以上的调整,备份仍然报错,备份时长从原来的20min左右,可以备份到3个小时左右,部分小的文件目录可以备份完成,大的文件目录备份仍然备份报错。


解决方法:
在外网增加media server,使用这台media server备份文件服务器。

论坛徽章:
2
数据库技术版块每日发帖之星
日期:2015-06-19 22:20:00IT运维版块每日发帖之星
日期:2016-06-30 06:20:00
8 [报告]
发表于 2014-02-21 09:49 |只看该作者
因为是备份大量小文件,在开始的一年多里都能备份成功,但是不知道在问题发生时是什么原因。据了解文件数量和文集容量变化不大。
高手有好的方法,还希望不吝赐教!

论坛徽章:
0
9 [报告]
发表于 2014-04-02 22:53 |只看该作者
回复 8# rand1985


    建议:

1. 升级NBU版本到最新
2. 在Master Server同网段找一台Client备份同样的目录进行测试。

论坛徽章:
0
10 [报告]
发表于 2014-04-04 10:12 |只看该作者
防火墙的参数看看是不是有time_out的参数设置
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP