免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
查看: 2810 | 回复: 0
打印 上一主题 下一主题

在 UNIX 环境中部署和使用 IBM SPSS Statistics Server [复制链接]

论坛徽章:
0
跳转到指定楼层
1 [收藏(0)] [报告]
发表于 2012-01-18 14:14 |只看该作者 |倒序浏览
SPSS Statistics Server 简介
SPSS Statistics Server 是一款基于客户端 / 服务器架构的统计分析软件,它提供了 SPSS Statistics 的所有统计分析功能,而且拥有更高的性能,在大数据量的处理上更占优势。Statistics Server 对数据的分析和处理是集中在服务器上完成的,因此可以更好的利用服务器的多处理器或多核心技术,也能避免在客户端和服务器之间通过网络传输数据,从而节省时间,提高企业的生产率和安全性

部署 SPSS Statistics Server
SPSS Statistics Server 的系统需求
1. 操作系统和处理器构架
以 Statistics Server 20 为例,其支持的 UNIX 操作系统和处理器架构如 表 1所示。其中 s390x 指运行于 IBM System z 之上的 Linux,IA-64 指 Intel 公司的 Itanium 架构。

表 1. 支持的 UNIX 操作系统和处理器构架
操作系统
版本
x86
x64
s390x
PowerPC
SPARC
IA-64
IBM AIX
6.1 和 7.1X
HP-UX
11i v3X
Red Hat Enterprise Linux
5 和 6XXX
Sun Solaris
9 和 10X
SUSE Linux Enterprise Server
10 和 11XX
2. 最小磁盘空间
在 UNIX 上部署 Statistics Server 20,若磁盘空间不够会导致失败。对磁盘空间的要求如 表 2所示。其中所列磁盘空间是 Statistics Server 20 安装完成后所占用的空间。除此之外,安装程序在执行安装动作之前,会先把文件释放到临时位置,一般在 UNIX 系统中这个位置默认为 /tmp。执行安装程序,需保证 /tmp 目录下有同样大小的剩余空间。如果 /tmp 目录空间不足,安装程序自动选择当前用户的主目录来释放文件。而如果主目录空间仍然不足,则安装程序报告空间不足并退出。在这种情况下,可以使用环境变量 IATEMPDIR 来指定一个位置,供安装程序释放文件,当然要确保这个位置的空间是足够的且有写权限。

表 2. 磁盘空间
操作系统
最小磁盘空间
IBM AIX
1 Gigabyte
HP-UX
1.4 Gigabytes
Linux
800 Megabytes
Sun Solaris
900 Megabytes
3. 最小内存
在 UNIX 上部署和使用 Statistics Server 20,要求系统至少有 2 Gigabytes 的内存(RAM)。
4. DVD-ROM 驱动器
物理介质 DVD 光盘是 Statistics Server 的发布途径之一。DVD-ROM 驱动器用于载入 Statistics Server 安装光盘,实施部署。
5. 网络适配器
一个运行 TCP/IP 网络协议的网络适配器。Statistics Server 的另外一种发布方式,即电子软件交付(Electronic Software Delivery)使得用户可以通过互联网,从发布站点上下载到 Statistics Server 的安装包。更为重要的是,通畅的网络环境是终端用户使用 Statistics Server 和管理人员对其进行管理的基础。
SPSS Statistics Server 的三种安装模式
Statistics Server 的安装程序是在 UNIX 平台上可执行的,以 bin 为扩展名的程序包。例如 AIX 平台上 Statistics Server 20 的安装程序为 statistics20aix64.bin。不管是从 DVD 光盘中还是从发布网站上得到的安装程序,首先检查其权限,必要时需手动赋予可执行权限。然后检查安装程序要使用的临时目录和 Statistics Server 的安装目录是否有足够的空间和可写的权限。Statistics Server 的默认安装路径为:/opt/IBM/SPSS/StatisticsServer<version>。其中 <version> 为 Statistics Server 的版本,例如 Statistics Server 20 的默认安装路径为 /opt/IBM/SPSS/StatisticsServer20。
1. 图形安装向导
图形化安装向导显示一个友好的用户界面,并询问各项安装参数,例如安装路径。运行图形安装向导,需要 X Window 系统的支持。一种搭建 X Window 的方法是在 Windows 平台上运行 Exceed 软件,并将图形界面重定向到 Windows 机器上。具体过程为,在 Windows 端,先安装 Hummingbird Connectivity 应用程序包,然后运行其中的 Exceed 程序,等待连接。在 UNIX 端,先运行 清单 1中的命令重定向图形显示,其中 <ip_address> 为 Windows 机器的 IP 地址。

清单 1. 重定向图形显示
                                 export DISPLAY=<ip_address>:0.0

然后在安装程序所在目录下,运行 清单 2所示的命令启动安装程序,其中 <installer_name> 指以 bin 为扩展名的安装程序文件。

清单 2. 启动图形安装向导
                                 ./<installer_name>

在安装程序加载完成后,一个安装向导的窗口就会出现在 Windows 桌面上,如 图 1所示。然后就可以按照安装向导所给的指示完成安装过程。

图 1. Statistics Server 安装程序图形界面
2. 命令行安装模式
与图形向导中的可编辑文本框不同,命令行安装模式通过命令提示来指定安装参数。具体的过程为,在 UNIX 上运行 清单 3中的命令。

清单 3. 启动命令行安装
                                 ./<installer_name> -i console

在安装程序加载完成后,控制台程序会等待输入安装参数。如 图 2所示,先输入 1 接受许可协议,然后输入安装路径继续安装进程,其中进度条显示了安装的进程直到安装完成。

图 2. Statistics Server 安装程序控制台界面
3. 静默安装模式
静默模式又称为无人值守模式,在这种模式下,安装程序无需任何人机交互。安装参数事先通过一个属性文件来指定。这个属性文件默认名为 installer.properties,在 DVD 光盘中提供,其主要内容如 清单 4所示。属性文件中第一行参数使安装程序进入静默安装模式,第二行参数使安装程序自动接受许可协议而不是等候用户选择,第三行参数用 <value> 指定 Statistics Server 的安装路径。这个路径不能含有空格。如果第三行被注释掉或者值为空,则 Statistics Server 会被自动安装到默认路径。

清单 4. installer.properties 主要内容
                                 INSTALLER_UI=silent  LICENSE_ACCEPTED=true  USER_INSTALL_DIR=<value>

指定了安装路径后,保存属性文件,运行 清单 5所示的命令即可开始静默安装。

清单 5. 启动静默安装
                                 ./<installer_name> -f installer.properties


SPSS Statistics Server 后台程序
启动和停止后台程序
为了便于管理和使用,一般总是在 Statistics Server 安装完成后就将其后台程序启动起来。后台程序的运行表现为一个守护进程。后台程序默认必须以 root 权限运行,否则无法被连接。后台程序是通过脚本 start_statistics_server 来启动的,它位于 Statistics Server 目录的 /bin 子目录。该脚本首先设置一些必要的环境变量例如 SPSS_HOME,SPSSTMPDIR 等,然后调用同目录下的 statisticsd 程序启动后台程序。start_statistics_server 的典型使用方法如 清单 6所示命令行,其意义为启动后台程序为守护进程,并在默认端口侦听。

清单 6. 启动 Statistics Server 后台程序
                                 sudo ./start_statistics_server -daemon

清单 6中命令执行完毕后,可以使用 ps 命令来查看守护进程的运行状态。例如,运行如 清单 7所示的命令。如果后台程序正在运行,命令的输出列表中第一个进程就是刚刚启动的守护进程。这就意味着 Statistics Server 已经就绪,可以接受来自终端用户的连接请求了。

清单 7. 查看 Statistics Server 后台程序
                                 ps – ef | grep statisticsd

守护进程启动时,自动生成文件 statisticsd.pid,用于记录守护进程标识符。这个标识符通常在需要停止后台程序时用到。例如可以在 Statistics Server 目录的 /bin 子目录下运行 清单 8中的命令来停止最近一次启动的后台程序。

清单 8. 停止 Statistics Server 后台程序
                                 sudo kill -9 `cat statisticsd.pid`

配置后台程序
后台程序的运行参数在配置文件 statisticsd.conf 中保存,该配置文件位于 Statistics Server 目录的 /bin 子目录。通过修改配置文件中的各项参数来控制后台程序的行为。
1. 用户认证方式
启动和停止后台程序中提到后台程序的进程默认必须以 root 权限启动。那是否意味着一般权限用户就无法启动并连接后台程序呢?其实可以通过修改用户认证方式来解决此问题。首先用编辑器打开配置文件 statisticsd.conf,并找到 userauth 元素,将其属性 value 的值由 unix 改为 internal。其意义为将使用 UNIX 用户认证方式改为使用内部用户认证方式。紧接着创建一个内部用户,用来登录或者管理将来启动的后台程序。其方法为在 Statistics Server 安装目录的 /bin 子目录下找到 statisticsuser 程序,运行 清单 9中的命令,添加一个管理用户。而去掉 -a 选项就能创建一个普通用户。在此过程中 statisticsuser 会提示为所创建的用户输入密码。完成这两步后就可以运行脚本启动后台程序了。创建好的普通用户可以分发给终端用户用以连接 Statistics Sever。

清单 9. 创建 Statistics Server 管理用户
                                 ./statisticsuser -a <username>

2. 默认侦听端口
Statistics Server 守护进程的默认侦听端口为 3020,如果需要启动多个后台程序,直接使用 清单 6中的命令会导致失败。其原因为 3020 端口已被占用。可以通过修改此默认端口来解决问题。其方法为在第二次启动前,找到配置文件 statisticsd.conf 中的 port 元素,并将其属性 value 的值由 3020 改为一个新的不会冲突的值,比如 4321,然后再启动后台程序。
3. 侦听套接字
UNIX 系统中可能会绑定多个 IP 地址。若其中默认的 IP 地址受限不能连接,则需要修改 Statistics Server 的侦听套接字参数。也就是显式的指定系统的另外一个 IP 地址供程序使用。其方法为在配置文件 statisticsd.conf 中并找到 listenconnect 元素,将其属性 value 的值改为 inet:<ip_address>:<port>,其中 <ip_address> 为可以被连接的 IP 地址,<port> 为侦听端口。
4. 安全套接层协议
如果客户端和服务器是在互联网范围内进行连接的,为了保证通讯和数据安全,一般会使用加密的方式。需要在客户端和服务器同时使用安全套接层协议(SSL)。服务器需要在启动后台程序之前,修改配置文件 statisticsd.conf。在该文件中找到 ssl 元素,将其属性 value 的值从 0 改为 1。客户端需要选择安全登录选项,如 图 15所示。

通过 IBM SPSS Statistics Administration Console 管理 SPSS Statistics Server
SPSS Statistics Administration Console 又称为 SPSS Collaboration and Deployment Services Deployment Manager,它提供了一个图形界面,方便管理人员配置和管理已经部署好的 Statistics Server。Administration Console 只能在 Windows 平台上工作,但是它可以管理部署在各种平台上的 Statistics Server,如 图 3所示。

图 3. Administration Console 主界面
连接 Statistics Server
在进行管理工作之前,首先要建立 Administration Console 和被管理的 Statistics Server 之间的连接。启动 Administration Console,选择菜单 File> New> Administered Server Connection,打开对话框 Add New Administered Server,如 图 4所示。添加新的连接需要指定 Server 的名字、主机名、服务端口和是否使用安全连接。

图 4. 在 Administration Console 中新添加 Server
接着需要编辑新建连接的属性,在 Server Administration 标签,右键点击 Server 名,在下拉菜单中选择 Properties 打开Properties对话框,指定 Server 的登录名和密码,如 图 5所示。

图 5. 指定 Server 登录名和密码
在完成了管理任务后,管理人员可以注销当前连接。在 Server Administration 标签,右键点击目标 Server,再选择 logoff执行注销,如 图 7所示。
配置 Statistics Server
配置后台程序中介绍了通过手动修改配置文件的方法配置 Statistics Server,本节将介绍在 Administration Console 中完成配置。在 Server Administration 窗格中,双击目标 Server 下的 Configuration 节点,打开 Configuration窗格,如 图 6所示。Configuration 窗格展示了 Statistics Server 的配置选项,这些配置来自配置文件 statisticsd.conf。 配置选项包括连接,文件位置,日志,进程协调(COP)和用户设置。其中常用的设置是连接设置中的主机地址,服务端口,和安全套接层协议,以及日志设置中的性能日志。若性能日志时间间隔设置为大于 0 的数字,则开始记录实时性能。改动并保存设置后,statisticsd.conf 会被更新,并在 Server 重新启动后生效。

图 6. 在 Administration Console 中配置 Server
控制 Statistics Server
通过 Administration Console 可以控制 Statistics Server 后台程序,对其进行暂停,重启和关闭的操作,如 图 7所示。当 Server 管理人员要平稳连接数或者要诊断遇到的问题时,常常暂时限制客户端的连接数量。暂停 Server 可以防止建立更多的终端用户连接,但是并不会中断已经连接上的终端用户。
当管理人员需要终止 Server 运行时,可以使用关闭功能。值得注意的是,一旦执行了关闭操作,要重新启动它,就必须到 Server 所在的机器上使用启动脚本启动后台程序了。管理人员应当避免在终端用户连接上 Server 时关闭它,因为直接关闭会导致用户连接断开,用户工作数据丢失。当管理员修改了 Server 配置时,需要重新启动 Server 以使其生效。重启 Server 也会导致用户连接断开,用户数据丢失。管理人员在重启或关闭 Server 前可以通过广播消息来通知终端用户保存好工作。广播消息见 管理 Statistics Server 用户

图 7. 在 Administration Console 中控制 Server
监测 Statistics Server 实时性能
配置 Statistics Server中提到,通过更改设置可以打开 Statistics Server 的性能日志功能。如 图 8所示,管理人员通过查看性能日志来监测系统实时性能和终端用户作业占用资源的状态,如处理器的占用时间,和内存占用量,并据此通知终端用户合理提交作业请求。

图 8. 在 Administration Console 中监测 Server 性能
管理 Statistics Server 用户
1. 用户配置和用户组
在 Administration Console 中可为 Statistics Server 创建用户配置 (Profile)和用户组。这些用户配置和用户组指定了临时文件目录,Umask 设置,进程优先级,客户端数据访问权限,最大线程数等参数。在 Server Administration 窗格中,双击目标 Server 下的 User Profiles and Groups 节点,会打开 Manage Users and Groups窗格,如 图 9上部所示。点击相应按钮,可以新建、编辑和删除用户配置文件或用户组。可以将新建的用户配置加入到已有用户组,也可以在新建的用户组中包含已有用户配置。值得注意的是,此处创建的并不是用户,而是用户配置。通过用户名把配置和用户关联起来的。用户组的名字是任意的且不和系统的用户组对应。

图 9. 在 Administration Console 中管理 Server 用户
2. 监控当前用户
双击 Monitor Current Users 节点 , 打开相应 Server 的 Monitor Current Users窗格,如 图 9下部所示。该窗格显示了所有连接到当前 Server 的用户的信息。其中 Connection ID 是一个任意的数字,较小数值表明用户在较早时间登录,反之则较晚登录。而 Authentication 显示出用户的访问权限 。管理人员可以针对某个用户或者全部用户进行断开操作和广播操作。应当在断开连接之前通过广播消息通知用户做好备份工作。图 10为管理人员从 Administration Console 广播消息,图 11为终端用户在 Statistics 程序中收到消息。

图 10. 在 Administration Console 中广播消息

图 11. 在 Statistics 中接收到消息

使用 SPSS Statistics Server
用户通过运行于桌面系统的 SPSS Statistics 软件和 SPSS Statistics Server 交互,是典型的使用方式。而批处理功能是 Statistics Server 另一个发挥强大功能的使用方式。批处理功能运行于服务器平台,并通过 SPSS Statistics Batch Facility 来实现。
SPSS Statistics Batch Facility
SPSS Statistics Batch Facility 是包含于 Statistics Server 的一个批处理实用程序,是运行在命令行中的 statisticsb 可执行文件。它的运行不依赖于 Statistics Server 后台程序,且二者可以同时运行,互不影响。
设计 Statistics Batch Facility 的目的是为了自动化的生成统计报告,使得用户能从重复的任务中抽身出来,比如一个用户每周都需要基于更新的数据进行分析工作,并最终生成报告。如 清单 10所示,用户可以先定义出此工作的语法文件(Syntax),并连同更新的数据 data.sav 提供给 Statistics Batch Facility。

清单 10. 语法文件 syntax1.sps
                                 get file 'data.sav'.  ren var (country to intlaw= Old_Variable_country, gnp_per_capitA_in_dollArs,  in_millions_of_dollars, inverse_rank_based_on_popn_energy_production,  political_stability, freedom_of_group_opposition,  intense_foreign_conflict, agreement_with_us_in_un, defense_budget_in_millions_of_dollars,  gnp_for_defense, acceptance_of_international_law). factor variables = gnp_per_capitA_in_dollArs to acceptance_of_international_law     /analysis all     /print init extract rotation univ corr repr     /plot eigen     /criteria factors(4) econverge (.000001) iteration (150)     /extraction paf     /rotation norotate     /save reg (all fac1).

而后在 UNIX 上执行 清单 11中的第一行命令生成新的定时任务表,输入第二行作为定时任务表的内容来调度 Statistics Batch Facility 于每周一至三上午 11 点自动根据语法生成统计报告。其中 output.html 即为超文本格式的统计报告。该报告可以方便的在浏览器中查看,如 图 12所示。

清单 11. 调度 statisticsb 自动生成报告
                                 crontab -u root – e  0 11 * * 1-3 /mystats/bin/statisticsb -f /mydir/syntax1.sps – out /mydir/output.html


图 12. 查看统计报告
通过 SPSS Statistics 使用 Statistics Server
从终端用户的角度来看,通过 SPSS Statistics 连接 Statistics Server 需要一些关键的信息,包括服务器的机器名或 IP 地址,服务端口,用于登录的用户名和密码,还有服务器是否使用了安全套接层协议。
1. 客户端连接服务器
终端用户通过以下步骤完成客户端和服务器端的连接。如 图 13所示,在 Statistics 中选择菜单 文件> 开关服务器,打开 服务器登录对话框,如 图 14所示。

图 13. 开关服务器菜单

图 14. 服务器登录对话框
点击添加按钮打开 服务器登录设置对话框,如 图 15所示,填写服务器信息,其中服务器名称和端口号是必填信息。如果 Statistics Server 要求使用安全套接层协议,则需要选择 使用安全套接字层连接复选框。点确定按钮,新的服务器添加完毕。在 服务器登录对话框内选择新添加的服务器填入用户名和密码,其中域信息在 UNIX 平台无效,可不填写,如 图 14所示,再点击确定按钮则开始连接 Statistics Server。图 16为连接上 Server 后的 Statistics 界面,窗口底部状态栏的处理器区域的信息显示已经连接到服务器 redhat6.ibm.com。注意如果 服务器登录对话框内复选标记选中了新加的远程服务器,下一次 Statistics 软件启动时将自动连接该服务器。

图 15. 服务器登录设置
2. 客户端提交作业
图 16所示,终端用户通过 Statistics 连接上 Statistics Server 后可以提交自己的语法文件完成统计任务。选择菜单 运行> 全部在远程服务器上运行语法文件的所有语句。

图 16. 通过 Statistics 提交作业
Statistics Server 上的统计分析过程结束之后,结果会被返回到 Statistics 的输出查看器上,如 图 17所示。

图 17. 通过 Statistics 查看结果
3. 用户权限
启动和停止后台程序所述,如果 Statistics Server 没有使用内部用户认证方式,则用来连接服务器端的用户必须拥有这样的权限:首先,对 Server 的安装目录及其子目录有读和执行的权限。其次,对临时文件目录有读、写和执行的权限。终端用户如果没有足够的权限,需向 Server 管理人员申请提升权限。这个操作在 管理 Statistics Server 用户中有介绍。
4. 客户端和服务端器版本
同一 UNIX 服务器可能运行多个 Statistics Server 版本,比如有 19 和 20 两个版本并存。这时必须注意客户端和服务器端软件的匹配。比如,Statistics 19 必须连接 Statistics Server 19,而不能连接 Statistics Server 20。

结束语
SPSS Statistics Server 提供了桌面统计分析软件所无法提供企业级性能,和为涉及敏感数据或知识产权的企业提供的更高的安全性和执行标准。广泛支持主流 UNIX 平台使其更容易被企业和市场接受。

作者简介
樊龙,计算机软件专业硕士, PMP。现任职于 IBM 中国研发中心,拥有多年的软件开发和自动化测试的开发经验,目前主要从事 IBM SPSS Statistics 产品的测试工作。

贺子寒,2007 年加入 IBM SPSS,软件工程师,负责 IBM SPSS Statistics 的开发,配置工作。




http://www.ibm.com/developerworks/cn/data/library/techarticle/dm-1109fanl/index.html

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP