免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
12下一页
最近访问板块 发新帖
查看: 5499 | 回复: 19
打印 上一主题 下一主题

sun cluster2.2 100 FAQ [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2007-04-16 12:10 |只看该作者 |倒序浏览
工作需要,写了个sun cluster100问答 但总感觉与2.2相关的东西太少,而且问题的使用性也不是很大,大家帮忙看看,补充补充阿!3Q
Sun cluster 2.2 100问
一、        概念部分
1.        为什么要使用cluster?
答:通过使用sun cluster来减少或消灭由软件或硬件故障引起的系统停机时间,确保数据和应用程序对最终用户的可用性,而不管故障属于什么类型;这些故障通常引起单服务器系统停机。通过向群集添加节点,使服务随着处理器的添加而伸缩,从而增大应用程序吞吐量提供增强的系统可用性,使您能够不必关掉整个群集就可执行维护。
2.        sun cluster2.2 和sun cluster3.0各有什么特点?
  答:

       
Sun cluster2.2       
Sun cluster3.X
支持文件系统类型        Ufs        ufs,hsfs
支持节点数        4        8
是否有global概念        无        为实现scalable出现了global概念
支持模式        logical host address
只支持failover模式        cluster networking share addres支持scalable,failover模式
与核心绑定是否紧密        与系统核心绑定不紧        与系统核心绑定很紧
是否支持solaris8        不支持        支持
其他        支持sci card(100M byte/s)
  以逻辑机为切换单位
        使用boot –x可以只起系统,不起cluster
支持千兆网卡,不支持sci card以资源组为切换单位,资源类型有app,ip,data

3.        什么是集群节点?
答:群集节点是运行Solaris 软件和Sun Cluster 软件的计算机。
   群集节点通常与一个或多个磁盘相连。未连接到磁盘的节点使用群集文件系统来访问多主机
磁盘。在并行数据库配置中,所有的节点共享对某些或全部磁盘的并行访问。
   群集中的每一节点都会知道另一节点的加入或离开。此外,群集中的每一节点还都会知道本地运行的资源和在其他群集节点上运行的资源。
   同一群集中的节点应具备相似的处理能力、内存和I/O 容量,以便能够在性能不显著下降的情况下实现故障转移。由于可能发生故障转移,每个节点都应具有足够的能力在其他节点发生故障时达到服务水平约定。
4.        Sun Cluster中可以支持多少个节点?
答:Sun Cluster 软件使群集中可以具有二到八个节点。
5.        什么是集群互联?
答:群集互连是对用于在群集节点间传送群集专用通信和数据服务通信的设备进行物理配置。
    当系统管理员隔离故障并检修通信时,冗余互连使得操作可以通过仍存在的互连继续进行。
    Sun Cluster 软件检测、检修通信并通过检修过的互连自动重新启动通信。
6.        什么是集群成员监视器(CMM)?
答:群集成员监视器(CMM)是一组分布式代理这些代理通过群集互连交换消息来完成以下任务:
        使所有节点上具有一致的成员视图(法定数目)
        驱动同步重新配置以响应成员更改
        处理群集分区
        在出现故障的节点没有检修好之前,将其放置在群集之外,从而确保所有群集成员之间具有   
完全的连通性
7.        什么是群集配置系统信息库(CCR)?
答:群集配置系统信息库(CCR) 是适用于群集范围的分布式专用数据库,用于保存与群集的配置和状态有关的信息。
    要避免破坏配置数据,每个节点必须知道群集资源的当前状态。CCR 可确保所有节点看到的群集都一样。
    当出现错误或进行恢复时,或当该群集的一般状态更改时,CCR 被更新。
    CCR 结构包含以下类型的信息:
        群集和节点名称
        群集传输配置
        Solaris 卷管理器磁盘集或VERITAS 磁盘组的名称
        可以控制每个磁盘组的节点的列表
        数据服务的有效参数值
        数据服务回调方法的路径
        DID 设备配置
        当前群集状态
8.         sun cluster 中都有哪些监视功能?
答:故障监视
    通过监视应用程序本身、文件系统和网络接口,Sun Cluster 系统使用户和数据之间的“路径”上的所有组件具有高可用性。
    数据服务监视
    每个Sun Cluster 数据服务都具有一个故障监视器,该监视器定期探测数据服务以确定其运行情况是否良好。
    磁盘路径监视
    Sun Cluster 软件支持磁盘路径监视(DPM)。通过报告辅助磁盘路径出现的故障,DPM改善了故障转移和转移的整体可靠性。
    监视磁盘路径有两种方法。第一种方法由scdpm命令提供。使用此命令,您可以监视、取消监视或显示群集中磁盘路径的状态。
    监视群集中磁盘路径的第二种方法由SunPlex Manager 图形用户界面(GUI) 提供。
    IP 多路径监视
    每个群集节点有自己的IP 网络多路径配置,不同的群集节点,IP 网络多路径配置可以不同。
9.        IP 网络多路径监视哪些网络通信故障?
答:网络适配器的传送和接收路径已停止传送包。
    网络适配器与链路的连接断开。
    交换机上的端口不传送、接收包。
    系统引导时某个组中的物理接口不可用
10.        什么是法定设备?
答:法定设备是被两个或多个节点共享的磁盘,该设备进行投票来决定是否运行群集。只有达到了法定票数,群集才能运行。
    当群集分成若干单独的节点组时,法定设备用来确定哪些节点组构成新的群集。
    群集节点和法定设备都会投票以形成法定数目。缺省情形下,群集节点在引导并成为群集成员时,其法定投票计数为一。
    当正在安装节点时,或当管理员将节点置于维护状态时,节点的投票计数可以是零。
    法定设备获取法定投票计数,该票数基于设备连接的节点数。当设置法定设备时,设备获取一个最大投票计数N-1,其中N 是法定设备的连接票数。例如,连接到两个投票计数非零的节点的法定设备的法定投票计数为一(二减一)。
11.        什么是全局设备访问?
答:全局文件系统使群集中的任何文件对于所有节点来说都是可访问和可视的。与此类似,Sun Cluster 软件使群集中的所有设备在整个群集
    中都是可访问和可视的。即,I/O 子系统使得可以从任何节点访问该群集中的任何设备,而不管该设备实际附加在何处。这样的访问被称为全局设备访问。
12.        什么是全局设备?
答:Sun Cluster 系统使用全局设备来使得群集中的所有设备在整个群集中对于任何节点都具有高度可访问性。通常,如果从节点无法访问某个全局设备,则Sun Cluster 软件切换到该设备的另一条路径,并将访问重定向到该路径。由于不管使用哪条路径,设备都使用同一名称,因此重定向全局设备非常容易。访问远程设备就像是访问使用同一名称的本地设备。而且,访问群集中全局设备时所用的API 与访问本地设备相同。
13.        sun cluster中全局设备包括哪些?
答:Sun Cluster 全局设备包括磁盘、CD-ROM 和磁带。但是,唯一支持的多端口全局设备是磁盘。这意味着CD-ROM 和磁带设备目前还不是高可用性的设备。每个服务器上的本地磁盘也不是多端口的,因而也不是高可用性设备。
群集为其包含的每个磁盘、CD-ROM 和磁带设备指定唯一的ID。这使得从群集中任何节点访问每个设备都是一致的。
14.        什么是多主机设备?
答:同时可以连接到多个节点的磁盘就是多主机设备。在Sun Cluster 环境中,多主机存储
使磁盘具有高可用性。Sun Cluster 需要双节点群集的多主机存储来建立仲裁。大于三个
节点的群集不需要多主机存储。
15.        什么是设备ID?
答:Sun Cluster 软件使用设备ID (DID) 驱动程序来管理全局设备。此驱动程序可自动给群集中的每个设备(包括多主机磁盘、磁带驱动器和CD-ROM)指定的ID。
16.        DID驱动程序如何工作?
答:DID 驱动程序是群集的全局设备访问功能的基本构成部分,它探测群集的所有节点,并生成唯一磁盘设备列表。
    DID 驱动程序还给每个设备指定对于该群集的所有节点都一致的唯一主号码和次号码。通过DID 驱动程序指定的唯一DID 而不是传统的Solaris DID访问全局设备。这样可以确保访问磁盘(例如,Solaris 卷管理器或Sun Java System DirectoryServer)的任何应用程序使
    用的路径对于整个群集来说是一致的。对于多主机磁盘,这种一致性尤其重要,因为每个设备的本地主号码和次号码可能随着节点的不同而变化。这些号码还可以更改Solaris 设备命名惯例。
17.        什么叫数据服务?
答:数据服务是软件和配置文件的组合,它使得无需修改Sun Cluster 配置,应用程序就可以运行。当在Sun Cluster 配置中运行时,应用程序作为在资源组管理器(RGM) 控制下的资源运行。数据服务使您可以将应用程序(例如,Sun Java System Web Server 或Oracle 数据库)配置成在群集上而不是在单一服务器上运行。
18.        什么叫资源类型?
答:资源类型是一个特性集,描述群集中的应用程序。该集合包含有关如何在该群集的节点上启动、停止和监视应用程序的信息。
    资源类型还包含特定于应用程序的特性,要在该群集中使用此应用程序,需要定义这些特性。Sun Cluster 数据服务具有多个预定义的资源类型。例如,Sun Cluster HA for Oracle 的资源类型为SUNW.oracle-server,Sun Cluster HA for Apache 的资源类型为SUNW.apache。
19.        什么是资源?
答:资源就是在群集范围内定义的资源类型的实例。资源类型使群集上可以安装应用程序的多个实例。初始化资源时,RGM 为特定于应用程序的特性指定值,并且该资源继承源类型级别上的任何特性。
20.        什么是资源组?
答:由RGM 管理的资源被放置在资源组中,这样可以将它们作为一个单元进行管理。资源组是一组相关或互相依赖的资源。例如,源于SUNW.LogicalHostname 资源类型的资源可能与源于某个Oracle 数据库资源类型的资源放置在同一资源组中。如果对资源组启动故障转移或转移,该资源组将作为一个单元移植。
21.        常用的数据服务类型有哪些?
答:故障转移数据服务
    可伸缩数据服务
    并行数据服务

论坛徽章:
0
2 [报告]
发表于 2007-04-16 12:11 |只看该作者
22.        Sun cluster由哪些硬件组成?
答:以下硬件组件组成一个群集:
带有本地磁盘(未共享)的群集节点提供该群集的主要计算平台。
多主机存储器提供在节点间共享的磁盘。
可删除的媒体被配置为全局设备,例如,磁带和CD-ROM。
群集互连为节点间的通信提供了一个通道。
公共网络接口启用了由客户机系统用于在该群集上访问数据服务的网络接口。

23.        Sun cluster 体系结构由哪些软件?
答:要充当群集成员,节点必须安装了以下软件:
Solaris 软件
Sun Cluster 软件
数据服务应用程序
卷管理(Solaris™ 卷管理器或VERITAS Volume Manager)
唯一的例外情况是在系统中使用卷管理的配置。这种配置不需要卷管理器软件。

二、        Sun cluster拓扑结构FAQ
24        什么是群集对拓扑?
答:群集对拓扑是在单一群集管理框架下运行的两对或更多对节点。在此配置中,只会在一
节点间进行失效转移。但是,所有节点都通过群集互连连接在一起,并且在Sun  Cluster 软
件控制下运行。您可以使用此拓扑在一对节点上运行并行数据库应用程序,在另一对节点
上运行失效转移或可伸缩应用程序。

        
25        什么是Pair+N 拓扑?
答:Pair+N 拓扑包括一对直接连接到共享存储器的节点和一组附加的使用群集互连访问共享存储器的节点(这组节点内部并未直接相连)。
         
26        什么是N+1(星型)拓扑?
答:N+1 拓扑包括几个主节点和一个辅助节点。主节点和辅助节点的配置不必完全相同。一般由主节点提供应用程序服务。在主节点出现故障之前,辅助节点不必处于空闲状态。辅助节点是配置中与所有多主机存储器有物理连接的唯一节点。如果主节点出现故障,Sun Cluster 则会进行失效转移,将资源切换至辅助节点,这些资源将在辅助节点继续工作,直到切换回(自动或手动)主节点。如果一个主节点出现故障,辅助节点必须具备足够的CPU 能力处理负载.
        

27        什么是N*N(可伸缩)拓扑?
答:N*N 拓扑允许群集中的每个共享存储设备连接到群集中的任意节点。此拓扑允许高可用应用程序进行失效转移,在不降低服务质量的情况下,从一个节点切换到另一个节点。当发生失效转移时,新节点可以通过本地路径(而不是专用互连)来访问存储设备。
         
X86平台
28        什么是群集对拓扑?
答:群集对拓扑是在单一群集管理框架下运行的两个节点。在此配置中,只会在一对节点间进行失效转移。但是,所有节点都通过群集互连连接在一起,并且在Sun Cluster 软件控制下运行。您可以使用此拓扑在一对节点上运行并行数据库或者运行失效转移或可伸缩应用程序。  
               
三、        高可用性FAQ
29        到底什么是高可用系统?
答:SunPlex 系统将高可用性(HA) 定义为群集使应用程序保持活动状态并运行(即使发生通常会使服务器系统不可用的故障)的能力。
30        群集是通过什么样的进程提供高可用性的?
答:通过一个称为失效转移的进程,群集框架提供高可用性的环境。失效转移就是一系统列由群集执行的步骤,它将数据服务资源从一个故障节点转移到群集上另一个可操作节点。
31        失效转移与可伸缩数据服务间有什么不同?
答:有两种高可用性数据服务类型:失效转移数据服务和可伸缩数据服务。
失效转移数据服务每次只能在群集中的一个主节点上运行应用程序。其他节点上可能运行其他应用程序,但每个应用程序只能运行在单一节点上。如果主节点发生故障,正在故障节点上运行的应用程序进行失效转移,切换到另一个节点并继续运行。
可伸缩服务将一个应用程序扩展到多个节点之上来创建一个单独的逻辑服务。可伸缩服务平衡它们在其上运行的整个群集中的节点和服务器的数目。对于每个应用程序,一个节点具有一个至群集的物理接口。这个节点被称作全局接口(GIF) 节点。群集中可以有多个GIF 节点。每个GIF 节点都有一个或多个逻辑接口,可伸缩服务可使用这些接口。这些逻辑接口被称作全局接口。每个GIF 节点都具有一个全局接口,用来接收针对特定应用程序的所有请求。GIN 还会将这些请求分发给运行应用程序服务器的多个节点上。如果GIF 发生故障,则全局接口将失效转移到一个仍正常工作的节点。如果某个正在运行应用程序的节点发生故障,该应用程序将在其他节点上继续运行,只是性能有所下降,直到该故障节点返回该群集为止。

论坛徽章:
2
双鱼座
日期:2014-02-23 12:10:03操作系统版块每日发帖之星
日期:2015-12-17 06:20:00
3 [报告]
发表于 2007-04-16 12:11 |只看该作者
这个一定要沙发,呵呵....

论坛徽章:
0
4 [报告]
发表于 2007-04-16 12:11 |只看该作者
四、        文件系统FAQ
32        可否将一个或多个群集节点作为高度可用的NFS 服务器运行,而将其他群集节点当作客户   
机?
答:不可以,不要进行回送装载。
33        可否将群集文件系统用于不受Resource Group Manager 控制的应用程序?
答:是的。然而,由于不受RGM 的控制,当运行这些应用程序的节点发生故障时,需手
动重新启动这些应用程序。
34        所有群集文件系统是否都必须在/global 目录下具有一个装载点?
答:并不需要。然而,如果将群集文件系统置于同一个装载点之下(例如/global),就可以更好地组织和管理这些文件系统。
35        使用群集文件系统和导出NFS 文件系统有哪些不同?
答:有以下几点不同:
1. 群集文件系统支持全局设备。NFS 不支持对设备的远程访问。
2. 群集文件系统有一个全局名称空间。只需要一个定位命令。使用NFS 时,必须在每个节点上定位文件系统。
3. 与NFS 相比,群集文件系统从高速缓存访问文件的情况更多。例如,多个节点同时访问一个文件,以执行读、写、文件锁定、异步I/O 等操作。
4. 群集文件系统是为了利用能够提供远程DMA 和零拷贝功能的快速群集互连而建立的。
5. 如果您更改了群集文件系统中某个文件的特性(例如,使用chmod(1M)),所做的更改会立即反映到所有的节点上。使用导出的NFS 文件系统,这可能会花费更长的时间。
36        文件系统/global/.devices/node@<nodeID> 出现在我的群集节点上。可否使用这个文件系统   
来存储要作为高度可用数据和全局数据的那些数据?
答:这些文件系统存储全局设备名称空间。它们不可以通用。如果是全局文件系统,不能以全局的方式对其进行访问,每个节点只能访问自己的全局设备名称空间。如果某节点发生故障,其他节点无法访问这个节点的名称空间。这些文件系统不具备高可用性。它们不适合用于存储需全局访问或高度可用的数据。

五、        卷管理FAQ
37        需要镜像所有磁盘设备吗?
答:必须镜像被视为具有高可用性的磁盘设备,或者使用RAID-5 硬件。所有数据服务应该要么使用高可用磁盘设备,要么使用定位到高可用磁盘设备上的群集文件系统。这样的配置可以容许单独磁盘故障。
38        可否将一个卷管理器用于本地磁盘(引导磁盘),而将另一个卷管理器用于多主机磁盘?
答:SPARC: 此配置支持Solaris Volume Manager 软件管理本地磁盘,支持VERITAS Volume Manager 管理多主机磁盘。不支持其他任何组合方式。
x86: 不,不支持此配置,因为基于x86 的群集中仅支持Solaris Volume Manager。
六、        数据服务FAQ
39        可以获得哪些SunPlex 数据服务?
答:支持的数据服务的列表包含在《Sun Cluster 3.1 9/04 发行说明(适用于Solaris OS)》中的“支持的产品”中。
40        SunPlex 数据服务支持哪些应用程序版本?
答:支持的应用程序版本的列表包含在《Sun Cluster 3.1 9/04 发行说明(适用于SolarisOS)》中的“支持的产品”中。
41        我可以记下自己的数据服务吗?
答:是的。有关更多信息,请参见《Sun Cluster 数据服务开发者指南(适用于SolarisOS)》中的“数据服务开发库参考”。
42        创建网络资源时,我应该指定数字IP 地址还是主机名?
答:指定网络资源的首选方法是使用UNIX 主机名,而非使用数字IP 地址。
43        创建网络资源时,使用逻辑主机名(一个LogicalHostname 资源)与使用共享地址(一个     
SharedAddress 资源)有什么不同?
答:除了Sun Cluster HA for NFS 之外,只要文档要求在Failover 模式资源组中使用LogicalHostname 资源,SharedAddress 资源或LogicalHostname 资源就可以交替地使用。使用SharedAddress 资源会造成一些额外的开销,因为群集联网软件是为SharedAddress 而配置的,而不是为LogicalHostname 而配置的。使用SharedAddress 的优点在以下情况下就可体现出来:您要配置可伸缩和失效转移两种数据服务,并想让客户能够使用相同的主机名访问这两种服务。在这种情况下,SharedAddress 资源与失效转移应用程序资源一起包含在一个资源组中,而可伸缩服务资源则包含在另一资源组中,并被配置为使用SharedAddress。此时,可伸缩服务和失效转移服务就可以使用在SharedAddress 资源中配置的同一组主机名/地址。
七、        公共网络FAQ
44        SunPlex 系统支持哪些公共网络适配器?
答:目前,SunPlex 系统支持以太网(10/100BASE-T 和1000BASE-SX Gb)公共网络适配器。因为新的接口可能会在将来得到支持,所以请向Sun 销售代表咨询以获取最当前信息。
45        在失效转移中MAC 地址起什么作用?
答:当失效转移发生时,生成新的地址解析协议(ARP) 软件包并进行广播。这些ARP 软件包包含新的MAC 地址(节点失效转移到的新的物理适配器的地址)和旧的IP 地址。网络中的其他计算机收到其中一个软件包之后,将刷新ARP 高速缓存中的旧MAC-IP 映射,然后使用新的映射。
46        SunPlex 系统是否支持设置local-mac-address?=true?
答:是的。事实上,IP 网络多路径要求必须将local-mac-address? 设置为true。您可以在基于SPARC 的群集中的OpenBoot PROM ok 提示符处使用eeprom(1M)来设置local-mac-address?,也可以在基于x86 的群集中,在BIOS 引导之后选择运行SCSI 实用程序来设置local-mac-address?。
47        当IP Network Multipathing在适配器之间执行切换时,将会有多久的延迟?
答:延迟可能持续几分钟。这是因为IP Network Multipathing切换完成后,还需要发送一个未经请求的ARP。但是,不保证客户机与群集之间的路由器将使用该未经请求的ARP。因此,直到路由器的此IP 地址的ARP 高速缓存项目超时,才有可能使用无效MAC 地址。
48        检测网络适配器的故障的速度有多快?
答:缺省的故障检测时间是10 秒钟。算法尽量与故障检测时间相符,但实际的检测时间取决于网络负载。

八、        群集成员FAQ
49        所有的群集成员都需要有相同的root 用户口令吗?
答:不要求让每个群集成员使用相同的root 用户口令。但是,您可以通过在所有的节点上使用相同的root 用户口令来简化该群集的管理。
50        节点引导的顺序有重要意义吗?
答:多数情况下并不重要。但是,引导顺序对防止失忆很重要(例如,如果节点2 是仲裁设备的属主而节点1 停机,并且您此时将节点2 停机,那么您在启动节点1 之前必须先启动节点2。这可避免意外使用过时的群集配置信息启动节点。
51        是否需要在群集节点中镜像本地磁盘?
答:是的。尽管这一镜像并不是一种要求,但是镜像群集节点磁盘可防止非镜像磁盘故障使节点停机。镜像群集节点本地磁盘的缺点是,将耗费更多的系统管理开销。
52        群集成员的备份是指什么?
答:您可以对一个群集使用多种备份方法。一种方法是将一个节点作为备份节点,连接一个磁带机/库。然后使用群集文件系统来备份数据。不要将此节点连接到共享磁盘上。有关如何备份和恢复数据的附加信息,请参见《Sun Cluster 系统管理指南(适用于olaris OS)》中的“备份和恢复群集”。
53        节点何时可以作为辅助节点使用?
答:重新引导后,当节点显示登录提示时,节点就可以作为辅助节点使用了。
九、        群集存储器FAQ
54        多主机存储器为什么具有高可用性?
答:多主机存储器之所以具有高可用性,是因为它在丢失单个磁盘的数据的情况下仍能借助镜像(或者基于硬件的RAID-5 控制器)而幸免于难。因为多主机存储器设备有不止一个主机连接,所以它也可以经受它所连接的单一节点的丢失。此外,从每个节点到附加存储器的冗余路径为主机总线适配器、电缆或磁盘控制器的故障提供了容错。

十、        群集互连FAQ
55        SunPlex 系统支持什么样的群集互连?
答:目前,SunPlex 系统在基于SPARC 和基于x86 的群集中支持以太网(100BASE-T 快速以太网和1000BASE-SX Gb)群集互连。SunPlex 系统只在基于SPARC 的群集中支持SCI 网络接口群集互连。
56         “电缆”与传输“路径”有什么不同?
答:群集传输电缆配置为采用传输适配器和交换器。电缆在组件对组件的基础上将适配器与交换器连接在一起。群集拓扑管理器采用可用的电缆,在节点之间构建端对端的传输路径。电缆不直接与传输路径相对应。管理员可静态地“启用”和“禁用”电缆。电缆可处于一种“状态”(启用或禁用),但并非一种“状况”。如果电缆禁用,它就象未经配置一样。禁用的电缆不可用作传输路径。不对它们进行探测,因此不可能知道它们的状况。使用scconf -p 可以查看电缆的状态。传输路径由群集拓扑管理器动态建立。传输路径的“状况”由拓扑管理器确定。路径可处于“联机”或“脱机”状况。可以使用scstat(1M) 查看传输路径的状况。以下面的群集为例,该群集有两个节点,通过四条电缆进行连接。
node1:adapter0 to switch1, port0
node1:adapter1 to switch2, port0
node2:adapter0 to switch1, port1
node2:adapter1 to switch2, port1
这四条电缆可能形成两条传输路径。
node1:adapter0 to node2:adapter0
node2:adapter1 to node2:adapter1
十一、        客户机系统FAQ
57        使用群集时是否需要考虑任何特殊的客户机需要或限制?
答:就像连接到任何其他服务器上一样,客户机系统可连接到群集。在某些情况下,根据具体的数据服务应用程序,您可能需要安装客户端软件或执行其他配置更改,以使客户机可以连接到该数据服务应用程序。有关客户端配置要求的详细信息,请参阅《Sun Cluster数据服务规划和管理指南(适用于Solaris OS)》中的相关章节。
十二、        管理控制台FAQ
58        SunPlex 系统是否需要管理控制台?
答:是的。
59        管理控制台必须专用于该群集吗?它可以用于其他任务吗?
答:SunPlex 系统不需要专用的管理控制台,但使用它有以下优点:
通过在同一机器上给控制台和管理工具分组来启用集中化的群集管理可能会使硬件服务供应商更快地解决问题
60        管理控制台需要位于群集“附近”(例如在同一房间内)吗?
答:请向硬件服务供应商咨询。供应商可能会要求控制台位于群集的近旁。使控制台处在同一房间内没有技术上的原因。
61        是否只要所有距离要求也首先得到满足,管理控制台就可以服务于多个群集?
答:是的。可以从一个单独的管理控制台控制多个群集。也可以在群集间共享一个单独的终端集中器。

十三、        终端集中器和系统服务处理器FAQ
62        SunPlex 系统需要终端集中器吗?
答:Sun Cluster 3.0 之后的所有软件发行版本均不需要终端集中器来运行。Sun Cluster2.2 要求一个终端集中器来进行故障防护;后续版本与之不同,不再依赖于终端集中器。
63        我知道大多数SunPlex 服务器都使用终端集中器,而Sun Enterprise E10000 server却不使  
用。为什么呢?
答:对于大多数服务器来讲,终端集中器实际上是一个串行到以太网的转换器。其控制台端口是一个串行端口。Sun Enterprise E10000 server没有串行控制台。系统服务处理器(SSP) 就是其控制台,它或者使用以太网端口,或者使用jtag 端口。对于SunEnterprise E10000 server,请始终将SSP 用作控制台。
64        使用终端集中器有什么益处?
答:使用终端集中器提供了对每个节点的控制台级别的访问,可以从网络上任意位置的远程工作站访问节点,节点可以位于基于SPARC 节点的OpenBoot PROM (OBP) 上,也可以位于基于x86 的节点上的引导子系统上。
65        如果使用Sun 不支持的终端集中器,需要了解哪些信息来确定我要使用的终端集中
器是否符合要求?
答:Sun 所支持的终端集中器与其他控制台设备之间的主要差别,是Sun 终端集中器有特殊的固件来防止终端集中器在控制台引导时向控制台发送中断。注意,如果您有一个控制台设备,可以发送中断或发送可能被解释为发给控制台的中断的信号,那么该控制台设备将关闭该节点。
66        是否可以不重新引导而释放一个Sun 所支持的终端集中器上的锁定端口?
答:是的。记下需要重置的端口号并键入以下命令:
telnet tc
Enter Annex port name or number: cli
annex: su -
annex# admin
admin : reset port_number
admin : quit
annex# hangup
67        终端集中器本身发生故障怎么办?我必须有备用终端集中器吗?
答:不必。如果终端集中器发生故障,您不会丢失任何群集可用性。但在集中器恢复工作之前,您将无法连接到节点控制台。
68        使用终端集中器时,其安全性如何?
答:通常,终端集中器连接到系统管理员使用的一个小型网络,而不连接到用于其他客户访问的网络。您可以通过限制对该特定网络的访问来控制安全性。
69        如何使用磁带机或磁盘驱动器进行动态重新配置?
答:确定磁盘驱动器或磁带机是否是活动设备组的一部分。如果该驱动器不是活动设备组的组成部分,您就可以对其执行DR 删除操作。如果DR 删除板操作将影响活动的磁盘驱动器或磁带机,则系统将拒绝执行该操作并且标识出可能会受该操作影响的驱动器。
确定驱动器是主节点的组件还是辅助节点的组件。如果驱动器是辅助节点的件,您就可以对其执行DR 删除操作。
如果驱动器是主节点的组件,您就必须先将主节点和辅助节点对调,然后才对该设备执行DR 删除操作。

论坛徽章:
0
5 [报告]
发表于 2007-04-16 12:12 |只看该作者
十四、        应用部分
70        如何添加一个应用程序资源 ?
答:添加一个应用程序资源即注册一个普通类型(gds)的新资源,可使用网页操作,也可使用scsetup命令操作。需要提供一个start脚本,一个stop脚本,probe脚本为可选,如果编写的probe脚本只是用来检测应用程序是否存在(ps看进程名),则不必添加,sun cluster已经在监控,标准的probe脚本应该要检测应用程序是否工作正常,并设置正确的返回值。
步骤:
1、# scsetup

*** Main Menu ***
Please select from one of the following options:
1) Quorum
2) Resource groups
3) Data Services
4) Cluster interconnect
5) Device groups and volumes
6) Private hostnames
7) New nodes
Other cluster properties
?) Help with menu options
q) Quit
Option: 2


*** Resource Group Menu ***
Please select from one of the following options:
1) Create a resource group
2) Add a network resource to a resource group
3) Add a data service resource to a resource group
4) Resource type registration
5) Online/Offline or Switchover a resource group
6) Enable/Disable a resource
7) Change properties of a resource group
Change properties of a resource
9) Remove a resource from a resource group
10) Remove a resource group
11) Clear the stop_failed error flag from a resource
?) Help
s) Show current status
q) Return to the main menu
Option: 3

2、选择 3) Add a data service resource to a resource group

   

3、选择5) SUNW.gds:3.1
>>> Add a Data Service Resource to a Resource Group <<<
This option allows you to add a data service resource to a resource
group. If the resource type for the data service is not yet
registered with the cluster, you will have the opportunity to
register that type.
Is it okay to continue (yes/no) [yes]?
Select the type of resource you want to add:
Res Name Description
======== ===========

1) SUNW.Event HA Event server for Sun Cluster
2) SUNW.HAStorage HA Storage Resource Type
3) SUNW.HAStoragePlus HA Storage Plus - A Resource Type which sub ...
4) SUNW.RGOffload Offload Resource Group
5) SUNW.gds:3.1 Generic Data Service for Sun Cluster
6) SUNW.test test server for Sun Cluster
Option: 5
4、输入资源名称
What is the name of the resource you want to add? freesm

5、选择要加入的资源组
Select the resource group you want to use for "freesm":
Group Name Type Description
========== ==== ===========
1) cluster Failover
6、设置资源属性值
Are you done setting properties (yes/no) [yes]?
Here is the list of extension properties you want to set:
Start_command=/home/oracle/yjr/freesm/bin/start.sh
Stop_command=/home/oracle/yjr/freesm/bin/stop.sh
Probe_command=/home/oracle/yjr/freesm/bin/probe.sh
Is it correct (yes/no) [yes]?
Is it okay to proceed with the update (yes/no) [yes]?
scrgadm -a -j freesm -g freesm -t SUNW.gds:3.1 -y Scalable=false -y Port_list=21/tcp -x Start_command="/home/oracle/yjr/freesm/bin/start.sh" -x Stop_command="/home/oracle/yjr/freesm/bin/stop.sh" -x Probe_command="/home/oracle/yjr/freesm/bin/probe.sh"
scrgadm -c -j freesm -y R_description="Scalable data service resource for SUNW.gds:3.1"
Commands completed successfully.

7、 激活该资源

Do you want to enable this resource (yes/no) [yes]?
scswitch -e -j freesm
scswitch -e -M -j freesm
Commands completed successfully.

8、 将资源组online:scswitch -z -g freesm -h goalnet-32

*** Resource Group Menu ***

Please select from one of the following options:
1) Create a resource group
2) Add a network resource to a resource group
3) Add a data service resource to a resource group
4) Resource type registration
5) Online/Offline or Switchover a resource group
6) Enable/Disable a resource
7) Change properties of a resource group
Change properties of a resource
9) Remove a resource from a resource group
10) Remove a resource group
11) Clear the stop_failed error flag from a resource
?) Help
s) Show current status
q) Return to the main menu
Option: 5
>>> Online/Offline or Switchover a Resource Group <<<
Use this option to bring a resource group online or offline on one or
more cluster nodes. For failover resource groups which are already
online, use this option to switch the primary owner of a group. For
scalable groups which are already online, use it to change the set of
current primaries.
This option is also used to control the managed and unmanaged state
of a resource group.
Once a resource group is brought online, all enabled resources in
that group become available to clients.
Once a resource group is taken offline from all cluster nodes, the
resources in that group are no longer available to clients of those
resources.
Is it okay to continue (yes/no) [yes]?
Select the resource group you want to change:
Group Name Type State(s)
========== ==== ========
1) freesm failover Online
2) cluster failover Online


q) Done
Option: 1
1) Switch ownership of the group
2) Bring the group offline from all cluster nodes
3) Put the group into an unmanaged state
q) Quit
Option: 1
Select the node to take ownership of "freesm":
1) goalnet-32
q) Done
Option: 1
Switching primary ownership of a failover resource group typically
results in a brief outage of service for all resources in the group.
Are you sure you want to switch "freesm" (yes/no) [yes]?
scswitch -z -g freesm -h goalnet-32
Command completed successfully.


71        Sun Cluster 2.2下如何修改节点名?
答:1.先停掉sc2.2,在停之前需要将data service和逻辑主机删掉;
    2.备份sc2.2数据库文件以防万一:
      # cd /etc/opt/SUNWcluster
      # tar cvf conf.tar conf
    3.修改两台主机中与主机名有关的文件:
      /etc/hosts
      /etc/hostname.interface
      /etc/nodename
      /etc/net/ticlts/hosts
      /etc/net/ticots/hosts
      /etc/net/ticotsord/hosts
    4.reboot两台主机
    5.系统启动后不用启动cluster,直接用下面命令察看原来节点信息:
      # scconf clustername -p
      Current Configuration for Cluster clustername:
      Hosts in cluster:
    6.然后用下面命令修改即可:
      # scconf clustername -h newhostname1 newhostname2
    7.察看更改过是否生效:
      # scconf clustername -p
    8.启动cluster2.2主机:
      # scadmin startcluster newhostname1 clustername
    9.启动cluster2.2备机:
      # scadmin startnode
    10.启动正常,一切ok。

72        如何更改 NAFO的网口?
答:假设原来的nafo口为qfe3,更改为ge1,ge0为数据应用口。
    #cd /etc
    #mv hostname.qfe3 hostname.ge0 两台都做
    #scshutdown -y -g0 只做一台,到ok态
    #boot -x ## cluster 不起 两台都做
    #pnmset -c nafo0 -o delete 两台都做,删除原来的配置
    #pnmset -c nafo0 -o create ge0 ge1 两台都做,创建新的配置
    #pnmset -p 两台都做 察看nafo情况
    #cd /etc/cluster
    #vi pnmconfig 将原来的nafo0 qfe3换成nafo0 ge0 ge1
    #reboot
73        调整Fault Monitors (程序监控) ?
答:1、Setting the interval between fault monitor probes 修改Thorough_probe_interval值
2、Setting the timeout for fault monitor probes 修改Probe_timeout值
3、Defining the criteria for persistent faults 默认值为3,当应用程序异常退出时,sun cluster认为这是非关键的错误,尝试在本地重启,并且计数器加1,如果经过3次尝试后失败,则认为这是永久的错误,开始切换资源组。
修改以下参数:
Retry_count
Retry_interval
4、Specifying the failover behavior of a resource
Failover_mode有五种选项:NONE,SOFT,HARD,RESTART_ONLY,LOG_ONLY
不同的选项影响不同的故障切换操作:
1、 NONE:如果资源的start方法失败,则双机软件将这个资源的状态设置为“methmod fail”并且等待用户干预;如果资源的stop方法失败,则将这个资源的状态设置为stop
fail,同时将资源组状态设置为Error_stop_failed,并且等待用户干预。
2、 SOFT:如果资源的start方法失败,则双机将在另一台主机上启动该资源,切换整个资源组;如果资源的stop方法失败,则将这个资源的状态设置为stop fail,同时将资源组状态设置为Error_stop_failed,并且等待用户干预。
3、 HARD:如果资源的start方法失败,则双机将在另一台主机上启动该资源,切换整个资源组;如果资源的stop方法失败,则停用该节点,并且将资源组切换到另一节点。
4、 RESTART_ONLY:指明如果出现任何错误,双机软件只能在本地重启该应用程序(资源),不能重启整个资源组或切换资源组, 如果超过了retry_count,则不再有任何资源重启的动作。
5、 LOG_ONLY:指明如果出现错误,双机软件只记录该事件,不做任何切换和重启资源的操作。


十五、        命令部分
74        查看资源组状态
#scstat –g
75        查看磁盘组状态
#scstat –D
76        查看投票设备状态
#scstat –q
77        查看心跳线状态
#scstat -W
78        查看所有主机状态
#scstat –n
79        查看某一主机状态
#scstat –h hostname
80        查看IP地址状态
#scstat -i
81        查看所有状态
#scstat -pv
82        显示资源信息
scrgadm –pv –j mydb
scrgadm –pvv –j mydb
scrgadm –pv
scrgadm -pvv
83        显示双机配置
scconf -pv
84        建立一个资源组
#scrgadm -a -g resource-group-1 -h phys-schost1,phys-schost-2
#scrgadm -pv -g resource-group-1
85        将资源组online
scswitch –Z –g smppcluster
86        将资源组在所有节点上offline
scswitch –F –g smppcluster
87        将资源组切换到某一主机
scswitch –z –g smppcluster –h SMPP02
88        将资源组设为非管理状态
# scswitch -u -g resource-group
89        将资源组设为管理状态
scswitch –o –g resource-group
90        将一个节点从资源组中删除
scrgadm -c -g failover-resource-group -h nodelist
nodelist不要包含被删除的节点名
91        显示资源组信息
scrgadm –pv –g smppcluster
scrgadm –pvv –g smppcluster
92        添加一个IP地址到资源组
scrgadm -a -L [-j resource] -g resource-group -l hostnamelist, ... [-n netiflist]
93        如何查看NAFO情况?
#pnmstat –p
94        如何关闭整个cluster 到ok 态?
    #scshutdown -g0 -y

论坛徽章:
0
6 [报告]
发表于 2007-04-16 12:14 |只看该作者
蜘蛛大哥太快了!呵呵 i 服了U  哈哈 帮忙给加点阿!3Q

论坛徽章:
2
双鱼座
日期:2014-02-23 12:10:03操作系统版块每日发帖之星
日期:2015-12-17 06:20:00
7 [报告]
发表于 2007-04-16 12:14 |只看该作者
第4个问题应该是要分cluster版本的:
sun cluster 2.2:4个节点
sun cluster 3.0:8个节点
sun cluster 3.1:16个节点
sun cluster 3.2:16个节点

[ 本帖最后由 东方蜘蛛 于 2007-5-20 21:21 编辑 ]

论坛徽章:
2
双鱼座
日期:2014-02-23 12:10:03操作系统版块每日发帖之星
日期:2015-12-17 06:20:00
8 [报告]
发表于 2007-04-16 12:18 |只看该作者
还有,建议标题改为sun cluster 100 FAQ,里面涉及到2.2的还是很少,呵呵...

论坛徽章:
0
9 [报告]
发表于 2007-04-16 14:19 |只看该作者
强贴留名.收藏了.顺便转到偶的blog中了.谢谢楼主给版权.

论坛徽章:
0
10 [报告]
发表于 2007-04-16 16:09 |只看该作者
hehe  顶了 毫不犹豫
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP