网络信息组织对传统信息组织的借鉴
作者:未知 时间:2008-01-04
本文探讨了网络信息组织对传统信息组织方法的继承与发展,重点分析了如何运用体系分类法、分面分类法、分类主题一体化等方法完善网络信息资源分类体系,并提出了建立科学网络信息分类体系的原则和具体构建方法,最后展望了网络信息组织研究和工作的发展趋势,如多媒体信息检索、智能搜索引擎以及搜索引擎的进一步细分等。
3.1 复分表和仿分在网络分类体系中的运用
搜索引擎在编制自己的分类表时,可以借鉴传统文献分类法中的复分表、仿分技术。但是,网络环境下的复分和仿分与传统文献分类法不同,尤其是资源类型复分表中所列出的文献形式几乎完全不同于传统文献分类法中总论复分表中的文献形式。
3.1.1 通用复分表的运用
通用复分表可以作为整个分类表各级类目组配复分的依据,也可以用于规范分类体系展开的方式,使整个分类体系更具科学性和逻辑性。网络信息分类体系的通用复分表可以包括主题通用复分表、世界地区复分表、中国地区复分表、时代表(包括国际的和中国的)、资源类型表、人物复分表等。
网络信息的主题通用复分表规定了整个类目体系展开的次序,内容可以包括综合网站、热点问题、政策法规、机构(包括管理机构、事业机构与协会、事业单位、公司企业单位)、人物、理论、事业与管理、改革研究、教育培训等。
世界地区分类表对于网络信息是必要的,因为网络都是全球性的,其中充满了大量分散的有关各个地区的信息。世界地区复分表的详尽程度要视信息资源的空间分布的密度确定。时代复分表主要根据网站的服务功能和所收集的资源特点确定。收集历史文献的网络站点或历史类专业搜索引擎最好设一个时代复分表,而对综合性的网站和搜索引擎来说,也可不用时代复分表。
网络环境下所使用的资源类型复分表中的资源类型,除了包括传统文献分类法中的期刊、报纸、杂志等文献形式外,还包括BBS与论坛、会议与活动、个人主页、新闻组、MaiingList/LISTSERV等。
通用复分表及其主要内容如表1所示。
表1 通用复分表及其主要内容
附图
3.1.2 专类复分表的运用
在编制网络信息分类体系时,可在有关类目中编制专类复分表,作为某些类目组配细分的依据。例如,在“工业类”下的各工业部门,可以按照厂家、公司、研究机构、部属院校、杂志、名牌产品的统一顺序展开,编制成一个专类复分表,因为这几项是各工业部门都共有的(特别是在中国),可以采用统一的顺序。这就是专类复分表在网络信息分类中的运用,但是,它不需要像传统分类法中的专类复分表那样赋予统一的类号,而只需在各类中采用统一的形式。在信息加工的后台中,使信息处理人员更好地理解各类目的展开方式,更好地使用分类体系来加工整合信息资源。
3.1.3 仿分的运用
在传统分类法中,按照分类标准的规定,部分类目可以仿照已列出的类目进行细分,即类目仿分。由于网络信息分类体系以事物和主题为中心进行划分,从某种程度上说,它要求仿分更加迫切。比如,在“sohu”中,一级类目中有“国家与地区”条目,在其下的二级条目(各个国家与地区的名称)就按照一级类目的各类目进行仿分。又如,在“北京”这个二级条目下,就出现了跟一级类目一致的三级类目。在网络信息分类体系中,这种情况很多,比如,在“sohu”的“社会科学”的各社会科学类下基本上均按“学会”、“爱好者天地”、“大学系/学院”、“活动与会议”、“期刊杂志”、“研究所/中心”、“同人主页”列类。
3.2 分面叙词表的运用
一般地讲,编制分面叙词表都是针对某一学科专业领域的,这是因为不同学科专业领域的基本分面的划分是不同的,所以对于整个知识领域来说,建立一个统一的分面叙词表是非常困难的。因此,分面叙词表主要用于网上学术信息资源的组织,或者用于建立专业性搜索引擎。
网络信息分面叙词表有以下两个方面的作用:一是在信息标引的后台工作中,标引员利用分面叙词表对网页进行主题标引。一方面,有利于分面组配提高描述特定信息资源的能力,另一方面,用分面组配公式来标引网页可以实现标引的一致性,进而提高标引质量。二是在信息检索的前台工作中,可向用户提供其输入的检索词的同义词和相关词,可同时提供多个主题领域的检索词,以供用户进行自由组配,通过这种组配,可达到较高的专指度。
采用这种组配方式可使用户拥有最大程度的决定权,即由用户从系统推荐的检索词中选择合适的词语,实现自由组配,从而避免了用户构造复杂的检索式。同时,在检索过程中,通过人机对话,由用户来判断与其检索最相关的文献。
4 按照分类主题一体化的原则改造网络信息组织
所谓分类主题一体化,是指将分类检索语言与主题检索语言融为一体,从而形成一种兼有两种语言的标引和查找功能的检索语言。传统分类法系统性较强,有利于族性检索,符合人们的思维、检索习惯,且在揭示数值、声像、空间对象等实体方面有其独特优势,但分类法体系复杂,不利于用户查全。传统主题法是用语词描述知识并按一定顺序排列,在主题检索中,夹杂大量不切题和无用信息,导致查准率低,有时甚至相当低。分类法和主题法两者的结合能较好地解决这一问题。
理想的网络信息资源检索语言应当是分类主题一体化语言。例如,在搜索引擎进行关键词检索时,可选择在所有站点或仅在此目录下进行检索,而且输出关键词检索结果时,列出相应的分类检索路径。
目前这种思路在“sina”搜索引擎中得以实现。例如,如果想查找“红楼梦”的相关信息,可在搜索框内键入关键词“红楼梦”,并单击旁边的搜索按钮,新浪搜索会先返回目录搜索结果“文学艺术>各类艺术>文学>各类文学>小说>古典小说>四大古典名著>红楼梦”,接下来就是关于“红楼梦”的网站的搜索结果。
有趣的是,在现行的搜索引擎中,不但体现了分类主题一体化思想,还根据实际需要在搜索结果中体现了分类、主题、文摘以及新闻服务四位一体的思想。比如,中文雅虎的搜索结果会从数据库中找出以下五个部分,按照顺序列出搜索结果:
分类类目 分类
网站名称 主题
网站描述 文摘
相关网页 主题
Yahoo!中国的相关新闻 新闻服务
但是,要实现网络信息的真正的分类主题一体化,还要做好以下三个方面的工作:
4.1 建立一个结构简明的知识分类体系,通过对信息资源的系统分类,实现对网络信息的宏观控制。这样的知识分类体系必须坚持科学性与实用性的统一,结构要清晰,整个体系是动态的,可以采用超文本系统进行管理。
4.2 建立一个智能化的控制词表,实现作者语言与用户检索语言的控制和转换。控制词表应当支持后控,以提高受控词的利用率和用户的交互能力。
4.3 建立分类体系与控制词表的系统联系,即将标引语言纳入分类体系,这样既可以用自然语言直接检索,也可以在任何类下进行语词检索,从而较好实现分类与主体的兼容。在搜索引擎生成索引数据库时形成包括分类标识和关键词标识的索引,同时分别为分类标识和关键词标识生成倒排挡,这样既加快了检索速度,又能同时以分类标识和关键词进行检索,提高查准率。
5 网络信息组织的目标――建立一套科学的网络信息分类体系
建立一套科学的网络信息分类体系,必须明确基本的分类原则。
5.1 网络信息分类的基本原则
确定网络信息分类原则必须根据网络信息的特点:
5.1.1 直接性原则
分类的层次不宜太多,不应该出现转换十多次还找不到所需信息的情况。一般来说,类目在6层以下比较符合人们的习惯。
5.1.2 数据保证原则
网络信息分类法是面向整个网络信息资源的,分类对象要明确地扩大到网络上一切可以利用的资源,让各种类型的网络信息资源都能在分类法中找到相应的位置。
5.1.3 自然性和实用性原则
网络是面向大众的,所用的类名基本上应当是自然语言,以满足广大普通用户的信息需求。同时,网络信息分类的类目要少而精,要实用,不应该仅仅为了美观等因素而设立一些用处不大的类目。
5.1.4 快捷性原则
每一类名都应有与其对应的一个快捷键或类号,以便于熟练的用户进行快速查找。传统分类法在这方面有相当杰出的成就(如类名索引等),毫无疑问,编制网络信息分类法时应当对这些成就加以研究和借鉴。
5.2 关于《网络信息分类法》的构建
传统分类体系与网络分类体系的相互借鉴和改造,使得编制一部网络信息分类法成为可能,在具体做法上,应注意以下几点:
5.2.1 以传统分类主题为基础,构建多维的分类体系
在栏目设置上,为了便于用户浏览,可以适当灵活处理,建立多维的分类模式。但这种变化必须是以传统分类主题理论体系为基础的。例如,为了突出重点,在栏目设置上可以不追求知识体系的完整性,一个子类可以隶属于多个母类(类似于主题词表的“范畴索引”),一个母类可以采用多重标准进行划分(即多重列表),少数大类(如“国家地区”)下可以涵盖各大类内容的体系,并利用超文本链接把类与类、类与信息记录之间链接起来,实现用户访问时的多重入口,自由跳转。
5
.2.2 按需设类,突出重点,便于浏览
一方面,因为一般用户对事物的认识要比对学科的认识更为直观和清晰,按主题和事物划分可以降低用户浏览时的认识负担。因此,网站栏目应根据实际需要而设,并且尽可能地删除与主题无关的栏目。另一方面,类目的规范程度主要地由用户群的结构而定。
此外,为了便于用户以最快捷的方式访问到网站提供的热门栏目和信息,在栏目的设置上,可以不拘泥与原有分类体系的逻辑层次划分,而是根据信息量和访问频率提升某些重要栏目的级位,将网站最有价值的内容放到突出位置。例如,中文雅虎和搜狐在栏目设置上,“计算机和互联网”这一热门栏目就列为一级栏目,与其属概念“科学与技术”并列。
5.2.3 控制类目级别,减少栏目层次
网站的栏目设置与划分的目的是让用户以最快的方式找到想要访问的页面信息,如果严格按照传统分类体系设置栏目,很可能会将用户感兴趣的页面埋藏在5、6层页面之下,显然这会让用户失去继续浏览的兴趣。因此,在栏目设置和划分时,应将大多数栏目的层次控制在3、4层为宜,专业性强的栏目可以适当延伸。
为了控制栏目层次,栏目设置可以不局限于单一标准的逻辑划分,而是使用若干标准同时对某一上级栏目进行划分,建立若干从属于上级栏目的平行的子栏目。这样,具有不同知识结构、带着不同检索目的、使用不同分类标准的用户都可以在同一级栏目上找到所需的信息,从而满足网络用户多途径、多角度的检索特性。
5.2.4 网络信息分类法与主题词表的结合
网络信息分类法的着眼点绝非只是分类法本身,而且要顺应分类主题一体化的发展。因此,必须考虑到网络信息分类法与主题词表的结合。这个主题词表可以是编制网络信息分类法同时编制的,或者现行网络信息主题词表中较好的。主题词表中的词应能被分类体系完全囊括,而且应具有严格的对应关系。
6 结语
随着互联网的飞速发展以及用户信息需求的变化,迫切要求采用高质量的网络信息组织方法。总体上说,目前网络信息组织的实践和研究工作出现了以下发展趋势:
6.1 多媒体信息检索
基于文本方式的多媒体信息检索不仅缺乏直观性,而且还有一定的主观性,因此无法充分揭示多媒体信息的内涵,从而影响检索效果。基于内容特征的多媒体信息检索针对图像画面、声音和影像内容特征,这正是多媒体信息检索的发展方向。
现在有一小部分搜索引擎支持多媒体信息检索,比如,AtaVista支持MP3/音频、视频等检索服务,ycos提供搜索图像和声音文件的功能。但是,这种多媒体信息检索往往停留在多媒体的形式检索上,即只给出多媒体信息的形式信息(如多媒体文件的扩展名和多媒体标题和文字解说等),并以此作为检索点。
6.2 智能搜索引擎
伴随着计算机智能技术的发展,智能信息检索(inteigentinformationretrieva)作为人工智能的一个独立分支得到了迅速发展。智能检索模型主要分为两大类:一类是基于机器学习的大范围信息检索系统;一类是智能化的用户个性化信息检索系统。前者以提高信息检索系统质量为主要目的,以满足用户从关键词检索到知识检索的需要,后者则以推动信息服务个性化为主要目的。
6.3 搜索引擎进一步细分
目前出现了元搜索引擎、搜索引擎之搜索引擎等新的搜索引擎类型。
元搜索引擎不同于独立的搜索引擎,它没有自己的数据库,而是将用户的检索请求进行转换处理后,提交给预先选定的独立搜索引擎,并将所有查询结果以统一的格式呈现出来,弥补了独立搜索引擎搜索不全的缺点,提高了检索的全面性,如metacrawer等。目前,中文元搜索引擎数目很少。
搜索引擎的发展将对人们信息利用能力产生不可估量的影响,图书情报界的同仁更会以自己的成果造福于信息用户。
