免费注册 查看新帖 |

Chinaunix

  平台 论坛 博客 文库
最近访问板块 发新帖
楼主: haoji
打印 上一主题 下一主题

Unix网络 [复制链接]

论坛徽章:
0
161 [报告]
发表于 2008-05-17 21:38 |只看该作者
下载
第1 2章A r c h i e和WA I S

A r c h i e和WA I S 这两种服务,都能帮助用户弄清在网上有哪些有用的信息、这些信息放在
什么系统上、以及放在系统的哪个目录中,A r c h i e的操作就像在一个在线目录库中进行查找,
通过它可以使用模式查找文件,如同使用关键字查找书名一样。WA I S 的操作就像索引一样,
它对F T P、We b 和G o p h e r站点上的文档进行分类索引,方便用户访问;实际上,使用WA I S,
可以对所有I n t e r n e t或I n t r a n e t站点上的文档进行索引。

12.1 Archie
I n t e r n e t上具有大量的站点是用于公共访问的,它们存放着无数的文件,这些文件可供任
何用户通过F T P这类文件传输工具获得。但是,如何查找到自己真正需要的文件,却不是件容
易的事,除非事先已经知道它的确切位置。A r c h i e就是用来帮助用户查找文件的,它可以告
诉你所需文件的确切位置,而后你就可以使用F T P进行文件下载了。

A r c h i e维护着一个文件名及其站点地址的数据库,这个数据库的信息一般每个月都在更
新。这种数据库在许多A r c h i e站点上都有一份拷贝,而A r c h i e站点一般用来当作A r c h i e服务
器。用户查找文件时,向A r c h i e站点发出查询请求,然后A r c h i e服务器向用户返回查找到的
结果。

用户访问A r c h i e服务器的方法有两种:一种是通过交互式的Te l n e t 对话,另一种是使用安
装在用户系统上的A r c h i e客户软件。A r c h i e客户软件可以帮助用户自动访问A r c h i e服务器、发
出查询请求并返回查询结果。使用A r c h i e客户软件查询A r c h i e服务器,可以避免使用Te l n e t 远
程登录方式的一些缺点,查询速度比较快,使用方法也很简单,所以应尽量使用A r c h i e客户
软件这种访问方式。当然如果你的系统上没有安装A r c h i e客户软件,就得使用远程登录方式
了。需要注意的是,A r c h i e服务器对同时登录的用户数目有所限制,超过了限定的数目就不
再接受其他用户登录的请求;另外,它还可能限制每个登录用户的使用时间。

12.1.1 Archie客户软件
如果你的系统上已经安装了一个A r c h i e客户软件,就可以通过它进行A r c h i e查询。查询时,
首先输入关键字A r c h i e,然后接着是一个选项和一个模式。其中,模式是用来查找文件名的
查询模式,选项用于指定查找的操作类型,不能同时选择多个选项;如果同时列出了多个选
项,那么仅使用最后一个列出的选项。A r c h i e命令的语法格式如下所示:

$ archie -option pattern

如果命令中只有模式没有列出选项,那么A r c h i e就将模式默认为全文件名。例如,下面的
查询命令用来查找文件名为g a m e s的文件:

$ archie games


下面示出了用户使用A r c h i e客户软件查找文件名为g a m e s的结果:

论坛徽章:
0
162 [报告]
发表于 2008-05-17 21:38 |只看该作者
第12章Archie和WAIS 165
下载
A r c h i e提供了许多选项,可方便用户组织功能更强大的查询命令。表1 2 - 1中列出了各种选
项。其中,使用- c选项,就将列出的模式看作是部分模式,该模式只要出现在文件名中的任
何部分都算匹配。在下面给出的示例中,使用- c选项查找匹配部分模式g a m e s的文件,则匹配
的文件名包括g a m e s、c o o k i e - g a m e s、o l d g a m e s等:

$ archie -c games


- s选项的功能类似于- c选项,但忽略字母的大小写。在下面的示例中,文件名g a m e s、
G a m e s、o l d G a m e s都能匹配上模式g a m e s:
$ archie -s games


选择- r选项,用户可以在模式中使用规则表达式,这样就能使用通配符查找文件。例如,
使用*代表文件名中前一字符的任何字符序列,?代表任何一个字符,[ ]代表一定范围内的字
符。必须记住,表达式要用单引号括起来。在下面的示例中:

$ archie -r‘[ G g ] a m e s *


[ G g ]表示可以是以G开头也可以是以g开头的文件名,如g a m e s或G a m e s;s *表示可以带或
不带s结尾的文件名,如g a m e s或g a m e。
其他一些选项用来控制A r c h i e的输出。其中,- m选项用于限制匹配项输出的数目,例

论坛徽章:
0
163 [报告]
发表于 2008-05-17 21:39 |只看该作者
166 第三部分网络及Internet工具
下载
如- m 1 0表示最多只列出最前面的1 0个匹配项;- t选项表示按日期先后顺序列出匹配的文件,
最新的文件列在最前面。

表12-1 Archie客户软件选项及变量

选项及变量作用
- e 精确的模式匹配(缺省)
- c 查找匹配部分模式的文件名
- s 查找文件名时忽略字母的大小写
- r 模式是一个规则表达式
- t 按日期对查找结果排序
-h h o s t n a m e 查询主机名A r c h i e服务器
- m n u m 限制返回结果的最大数目(匹配)
- Nn u m 估计查询结果的数量
- L 列出已知的A r c h i e服务器
- V 在长查找期间显示消息
- of i l e n a m e 将查找结果保存在指定的文件中
A R C H I E _ H O S T 保存A r c h i e客户软件查询用的A r c h i e主机地址

A r c h i e按大小排列接受到的所有请求,并优先执行较小的请求。- N选项用来列出预先所
估计的匹配项数目,A r c h i e会根据这个数目进行排队。


使用- o选项并带上一个文件名,就可以将查询的结果保存在所指定的文件中。在下面的
示例中,把A r c h i e的查询结果保存在g a m e r e s文件中:

$ archie -m50 -t games -o gameres


A r c h i e客户软件缺省查询的A r c h i e站点名,已经编译到了A r c h i e客户软件中;不过,用户
通过选择- h选项并带上一个站点地址,就可以另外指定一个A r c h i e站点。表1 2 - 2列出了一些
A r c h i e站点。在下面的例子中,用户查询a r c h i e . c s . m c g i l l . c a站点:

$ archie -s games -h archie.cs.mcgill.ca


12.1.2 Archie服务器
I n t e r n e t上有几个A r c h i e公用服务器,可供用户免费访问。如果使用Te l n e t 远程登录到

论坛徽章:
0
164 [报告]
发表于 2008-05-17 21:40 |只看该作者
第12章Archie和WAIS 167
下载
A r c h i e服务器,就必须采用登录名a r c h i e,表1 2 - 2列出了用户可以登录的几个公共A r c h i e服务
器。一旦登录成功,就出现A r c h i e提示符“a r c h i e >”;在提示符后用户可以输入查找或设置
参数命令。进行查找时,就输入查找命令p r o g和需要查找的字符串,如下所示:

a r c h i e > prog games


完成A r c h i e对话后,使用q u i t命令退出:

a r c h i e > q u i
t


表12-2 Archie服务器站点

域名IP 地址国家或地区
a r c h i e . a u 1 3 9 . 1 3 0 . 2 3 . 2 澳大利亚
a r c h i e . u n i v i e . a c . a t 1 3 1 . 1 3 0 . 1 . 2 3 澳地利
a r c h i e . b e l n e t . b e 1 9 3 . 1 9 0 . 1 9 8 . 2 比利时
a r c h i e . b u n y i p . c o m 1 9 2 . 7 7 . 5 5 . 5 加拿大
a r c h i e . c s . m c g i l l . c a 1 3 2 . 2 0 6 . 5 1 . 2 5 0 加拿大
a r c h i e . f u n e t . f i 1 2 8 . 2 1 4 . 2 4 8 . 4 6 芬兰
a r c h i e . c r u . f r 1 2 9 . 2 0 . 2 5 4 . 2 法国
a r c h i e . t h - d a r m s t a d t . d e 1 3 0 . 8 3 . 2 2 . 1 德国
a r c h i e . a c . i l 1 3 2 . 6 5 . 2 0 8 . 1 5 以色列
a r c h i e . u n i p i . i t 1 3 1 . 11 4 . 2 1 . 1 5 意大利
a r c h i e . w i d e . a d . j p 1 3 3 . 4 . 3 . 6 日本
a r c h i e . k o r n e t . n m . k r 1 6 8 . 1 2 6 . 6 3 . 1 0 韩国
a r c h i e . s o g a n g . a c . k r 1 6 3 . 2 3 9 . 1 . 11 韩国
a r c h i e . n z 1 4 0 . 2 0 0 . 1 2 8 . 2 0 新西兰
a r c h i e . i c m . e d u . p l 1 4 8 . 8 1 . 2 0 9 . 5 波兰
a r c h i e . r e d i r i s . e s 1 3 0 . 2 0 6 . 1 . 5 西班牙
a r c h i e . l u t h . s e 1 3 0 . 2 4 0 . 1 2 . 2 3 瑞典
a r c h i e . s w i t c h . c h 1 9 3 . 5 . 2 4 . 1 瑞士
a r c h i e . n c u . e d u . t w 1 9 2 . 8 3 . 1 6 6 . 1 2 台湾
a r c h i e . d o c . i c . a c . u k 1 9 3 . 6 3 . 2 5 5 . 1 英国
a r c h i e . h e n s a . a c . u k 1 2 9 . 1 2 . 2 0 0 . 1 3 0 英国
a r c h i e . u n l . e d u 1 2 9 . 9 3 . 1 . 1 4 美国
a r c h i e . i n t e r n i c . n e t 1 9 8 . 4 9 . 4 5 . 1 0 美国
a r c h i e . i n t e r n i c . n e t 2 0 4 . 1 5 9 . 111 . 1 0 1 美国
a r c h i e . i n t e r n i c . n e t 2 0 4 . 1 7 9 . 1 8 6 . 6 5 美国
a r c h i e . r u t g e r s . e d u 1 2 8 . 6 . 2 1 . 1 3 美国
a r c h i e . a n s . n e t 1 4 7 . 2 2 5 . 1 . 1 0 美国

如同使用A r c h i e客户软件一样,用户也可以在这里使用规则表达式和部分模式匹配方式,
即使用s e t命令设置查找特性,如下所示:

archie>set searcho p t i o n

其中,o p t i o n代表用户指定的查找特性选项,例如,rg e x 选项表示使用表达式进行查找;
s u b选项表示使用部分模式进行查找,许多系统都缺省设置为s u b选项;e x a c t选项按提供的模
式进行精确查找。在下面给出的示例中,用户查找包含模式g a m e的文件名:

a r c h i e > set search sub
a r c h i e > prog games


如前所述,假如用户采用表达式[ G g ] a m e s查找文件名,则可以使用如下命令:

论坛徽章:
0
165 [报告]
发表于 2008-05-17 21:40 |只看该作者
168 第三部分网络及Internet工具
下载
a r c h i e > set search regex
a r c h i e > prog [Gg]ames*


下面给出了一个A r c h i e对话的示例,用户采用Te l n e t 使用A r c h i e登录名进入A r c h i e服务器,
然后在提示符a r c h i e >后输入查找命令p r o g,使用缺省的查找类型s u b,输入的模式是“g a m e s”。
完成对话后,用户使用q u i t命令结束对话,断开与A r c h i e服务器的连接。

论坛徽章:
0
166 [报告]
发表于 2008-05-17 21:41 |只看该作者
第12章Archie和WAIS 169
下载
用户通过设置一些A r c h i e变量值,可以改变A r c h i e查询结果的输出形式。例如,变量
m a x h i t s用来设置返回的最大命中文件个数;变量s o r t b y用来对输出结果按指定的项进行排序。
用户设置变量值时,使用s e t命令,并指定变量和变量值。例如,设置变量m a x h i t s的值为1 0的
命令形式如下:set maxhits 10。在下面给出的示例中,用户限制输出项为5个,按文件修改日
期的先后顺序排列查询结果:


表1 2 - 3归纳了A r c h i e服务器命令。

表12-3 Archie服务器命令

命令及选项作用

A r c h i e公共服务命令

p r o g 查找符合部分模式匹配的文件名
l i s t 列出已知的A r c h i e服务器
s i t e 列出在特定主机上的文件
m a i l 使用邮件发送查找结果
q u i t 退出A r c h i e服务器

论坛徽章:
0
167 [报告]
发表于 2008-05-17 21:42 |只看该作者
170 第三部分网络及Internet工具
下载
(续)

命令及选项作用
h e l p 显示帮助信息
set variable value 设置A r c h i e变量
s h o w 显示A r c h i e变量的当前值
u n s e t 清除一个变量
A r c h i e服务器变量
autologout n u m 保存自动退出A r c h i e服务器时A r c h i e需等待的分钟数,缺省为1 5分钟
m a i l t o a d d re s s 发送结果的邮件地址
maxhits n u m 限制返回命中结果的最大数目
p a g e r 使用p g或m o r e等缺省p a g e r显示结果
s e a r c h o p t i o n 设置查找类型
查找选项
s u b 在文件名中进行模式查找
s u b c a s e 识别大小写字母的模式查找
e x a c t 精确模式匹配
r e g e x 使用规则表达式
sortby o p t i o n 输出结果的排序方式
排序选项
n o n e 不排序
f i l e n a m e 按文件名的字母表顺序对结果进行排序
h o s t n a m e 按主机名对结果进行排序
t i m e 按时间顺序对结果进行排序
s i z e 按大小对结果进行排序
r f i l e n a m e 按文件名字母表倒序对结果进行排序
r h o s t n a m e 按主机名字母表倒序对结果进行排序
r t i m e 按日期先后对结果进行排序
r s i z e 按大小的倒序对结果进行排序
s t a t u s 在查找时进行状态报告
term t e r m i n a l - i d 设置用户终端类型

12.2 WAIS
WA I S(Wide Area Information Service,广域信息服务)是I n t e r n e t提供的一种信息服务,
用来查找I n t e r n e t上保存的大量数据库。I n t e r n e t上分布有许多WA I S 数据库,这些数据库中包
括大量有关电影、编程等各种话题的文章。在WA I S 数据库中保存的文档都经过了WA I S 索引
软件的索引处理,以方便用户查找。

目前提供了多种方法用来查找WA I S 数据库:一种是使用WA I S 客户软件,例如w a i s q、
s w a i s或x w a i s;一种是使用We b 浏览器,例如N e t s c a p e或M o s a i c;还有一种是使用G o p h e r客户
软件,例如g o h p e r或x g o p h e r。w a i s q使用一种简单的命令行界面,s w a i s却提供一种全屏的界
面,而x w a i s专门用于X - Wi n d o w s界面。表1 2 - 4中列出了s w a i s的命令和选项。采用WA I S 客户
软件,用户可以选用一个WA I S 数据库,并能使用复杂的布尔查询进行查找;查找结果按编号
一一列出,并可以根据编号选择所要的文章,系统会立即显示选中的文章,之后还可以保存
或打印该文章。如果使用We b 浏览器或G o p h e r客户软件,就可以访问许多WA I S 站点(例如

论坛徽章:
0
168 [报告]
发表于 2008-05-17 21:42 |只看该作者
第12章Archie和WAIS 171
下载
w w w. w a i s . c o m站点)轻松地完成各种主题的信息查找任务。

表12-4 WA I S 命令

命令及选项作用
选项
-s s o u rc e n a m e 选择源文件名
-S s o u rc e d i r 指定源目录,缺省是
~ / w a i s - s o u r c e s
-C s o u rc e d i r 指定公用的源目录,缺
省是/ u s r / l i b / w a i s - s o u r c e s
- h 显示帮助信息
命令
j, down-arrow, ^N 下移一个源
k, up-arrow, ^ P 上移一个源
J , ^ V, ^ D 下移一屏
K,escape v, ^ U 上移一屏
# n u m 选择指定号的源

命令及选项作用
/s t r i n g 查找s t r i n g代表的源
spacebar 或. 选择当前的源
= 删除所有的源
v 或, 查看当前的源信息
e n t e r 进行查找
s 选择一个新的源(刷新源列表)
w 选择新的关键字
X,清除当前的源
o 设置和显示swais 选项
h, ? 显示当前的帮助信息
H 显示程序历史
q 退出当前程序

WA I S 查找信息时,搜索数据库中每篇文章的全部内容,而不仅仅是文章的标题或索引的
关键字列表;因此,与其他一些信息服务相比,它可以提供更详细准确的搜索结果。另外,
WA I S 查找结果经过排列后返回给用户,排列的顺序编号从0到1 0 0 0,按与查找内容接近的程
度大小排列。用户还可以基于查找结果,进一步扩大或缩小查找范围。

12.2.1 freeWA I S
WA I S 是I n t e r n e t上一种很有效的信息服务,它最初由Thinking Machines开发出来,现在
归WA I S 公司管理。f r e e WA I S是一种免费的WA I S 版本,它是由C N I D R设计出来的。在C N I D R
的We b 站点f t p . c n i d r. o rg 上提供已编译过的U n i x版本f r e e WA I S;用户也可以下载源代码自己编
译。另外,用户还可以使用f r e e WA I S服务器软件创建自己的WA I S 数据库,然后收集一些文档,
加上索引,就可以供I n t e r n e t上的其他用户查找了。

f r e e WA I S软件套件包括客户软件、服务器软件和索引器程序。客户软件就是s w a i s、x w a i s
和w a i s s e a r c h,它们主要用于输入请求和显示结果。索引器就是w a i s i n d e x,用来给WA I S 文档
建立关键字索引,以提供快速而有效的查找功能。服务器软件就是w a i s s e r v e r,用来帮助用户
创建自己的WA I S 站点,以便于其他用户查找你提供的文档信息。

f r e e WA I S源代码可以配置用于不同的系统。如果你下载的是编译了的二进制代码,那么
只要将它们安装在适当的目录中(例如/ u s e r / b i n)就行了。不过,要是你下载的是源代码,那
就要首先进行配置,在编译f r e e WA I S时,使用m a k e命令并带上U n i x选项,这样才能得到适合
U n i x系统的WA I S 套件。

12.2.2 WA I S 服务器
只要用户安装了WA I S 服务器,就可以使用w a i s s e r v e r命令启动,启动时需指定WA I S 索引
的位置,如下所示:

论坛徽章:
0
169 [报告]
发表于 2008-05-17 21:43 |只看该作者
172 第三部分网络及Internet工具
下载
waisserver -d wais_index_directory


对文档进行索引时,必须使用w a i s i n d e x命令;用户可以对单个文件、一组文件或整个目
录及其子目录下的文件进行索引。你可以对不同的文件或文件组分别进行索引,然后在服务
器上建立几个不同的WA I S 数据库。WA I S 数据库应放在启动WA I S 服务器时所指定的目录中,
例如/ h o m e / w a i s i n d e x。

w a i s i n d e x用来创建一个可转换的文件索引,其中包含了指定文件中每一个单词的索引信
息,这样就便于进行全文关键字查找。w a i s i n d e x命令中可以列出几个选项,最后列出的参数
是需要索引的文件、文件组或目录。它为每一个文档创建几个用于管理索引的索引文件;这
些索引文件中的每一个都有各自可以代表自己作用的扩展名,但是它们都有一个共同的索引
名,索引名可以使用- d选项作为前缀在命令中指定。如果没有指定一个索引名,则系统缺省
使用“i n d e x”。

另外,如果想让你的数据库允许I n t e r n e t上的其他用户访问的话,就需要加上- e x p o r t选
项,否则只有本地系统上的其他用户才能访问你的数据库。表1 2 - 5中列出了WA I S 的索引文
件。

waisindex -di n d e x - f i l e -exportf i l e - l i s t

表12-5 WA I S 索引文件

文件类型名作用
. d o c 保存文档的信息,包括文档的大小和名字
. d c t 字典文件,列出索引采用的每一个词的转换对照表
. f n 列出创建的所有文件清单
. h l 列出所有标题,这些标题在检索结果中显示出来
. i n v 转换文件,包括一张词表及其重要性的排序号、与索引文档的连接关系
. s r c 源描述文件,包含索引信息、所在系统的位置、相关的主题、维护人等信息
. s t a t u s 包含用户定义的信息


如果在命令中列出多个需要索引的文件,那么所有这些文件共同拥有一个索引;如果包
括子目录下的所有文件,就在目录名前加上- r选项:

waisindex -di n d e x - f i l e -export -rd i r e c t o r y - n a m e

其他一些w a i s i n d e x选项也在表1 2 - 6中列出了。

在下面的示例中,用户首先对c h o c o l a t e和c h e e s e c a k e两个文件进行索引,建立一个叫做
r e c i p e s的索引;如果查询r e c i p e s,就对上述两个文件进行查找。在第二个命令中,用户将
p a s t a文件增加到r e c i p e s索引中,这样WAIS recipes数据库中就包括了c h o c o l a t e、c h e e s e c a k e和
p a s t a三个文件。在第三条命令中,用户对p a s t r y目录及其子目录下的所有文件进行索引,索引
名叫b r u n c h。最后一条命令是将p a s t r y目录及其子目录下的所有文件增加到r e c i p e s数据库中,
不过这时b r u n c h数据库也同时存在并仍代表p a s t r y目录。

# waisindex -d recipes -export chocolate cheesecake
# waisindex -d recipes -export -a pasta
# waisindex -d brunch -export -r pastry
# waisindex -d recipes -export -a -r pastry

论坛徽章:
0
170 [报告]
发表于 2008-05-17 21:44 |只看该作者
第12章Archie和WAIS 173
下载
表12-6 waisindex选项

选项作用
- a 将新的索引附加到一个已有的索引中
- c o n t e n t s 对文件的内容进行索引(缺省)
-d p a t h n a m e 指定索引文件的路径名
-e l o g f i l e 将错误信息重定向到l o g f i l e文件中
- e x p o r t 将主机名和T C P端口号增加到源描述文件中
-l n u m 设置日志级别:0,代表无记录;1,代表错误和报警信息;5,
中等优先权信息;1 0,代表所有信息
-m e m 进行索引时所使用的内存总数
- M 链接不同类型的文件
- n o c o n t e n t s 仅对文件头和文件名进行索引
- p a i r s 将大写的词当作一个术语处理
- n o p a i r s 将大写的词当作一个个独立的术语处理
- p o s 包括词的位置信息
- n o p o s 不包括词的位置信息
- r 递归索引所有的子目录
- r e g i s t e r 在WA I S 服务器目录中注册索引
- t 指定文档文件的类型
- T 设置文档的类型

w a i s i n d e x另一个重要的选项是- t,它表示需要索引文档的类型。用户可以对多种类型的文
档进行索引,包括图像、邮件文件、H T M L页面和标准的文本文件,表1 2 - 7中列出了可索引的
文件类型。

# waisindex -di n d e x - f i l e - t type documents

表12-7 WA I S 文档文件的类型

类型名代表的文件类型
f i l e n a m e 使用文件名作为标题的文本类型
f i r s t _ l i n e 使用文件第一行内容作为标题的文本类型
o n e _ l i n e 对每一个句子进行索引的文本类型
t e x t 使用路径名作为标题的文本类型
f t p 包含用于访问其他系统的F T P代码
G I F G I F图像文件
P I C T P I C T图像文件
T I F F T I F F图像文件
M P E G M P E G文件
M I D I M I D I文件
H T M L H T M L文件
m a i l _ o r _ r m a i l 邮箱文件
m a i l _ d i g e s t 使用主题作为标题的电子邮件
n e t n e w s U s e n e t新闻
p s P o s t s c r i p t文件

对于文本文件,如果采用o n e _ l i n e类型进行索引,WA I S 能精确地指出查找的关键字出现
在文档中的哪一行。在下面的示例中,对文档n e w s f l a s h的每一行进行索引,创建一个名叫
i f l a s h的索引:

# waisindex -d iflash -t one_line newsflash
您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

  

北京盛拓优讯信息技术有限公司. 版权所有 京ICP备16024965号-6 北京市公安局海淀分局网监中心备案编号:11010802020122 niuxiaotong@pcpop.com 17352615567
未成年举报专区
中国互联网协会会员  联系我们:huangweiwei@itpub.net
感谢所有关心和支持过ChinaUnix的朋友们 转载本站内容请注明原作者名及出处

清除 Cookies - ChinaUnix - Archiver - WAP - TOP