分布式参考咨询服务标准与规范研究与应用
作者:未知 时间:2008-01-04
本文介绍了国内外数字参考咨询服务系统的发展,重点探讨了问答内容创建、对象描述、知识组织、数据存取传递、专家信息管理、协作馆信息管理、服务流程管理、质量控制、知识产权管理、个人隐私控制等方面的标准规范研究与发展,并讨论了国家科学数字图书馆分布式参考咨询服务和管理标准规范的研究与规定,以及QuIP数据标准、问答知识元数据研究、数据元素特征与设置、数据元素与DC元数据的映射关系、问答数据的XML描述,最后阐述了分布式参考咨询服务系统标准研究与设计,包括数据模型研究与设计、数据库格式与标准研究与设计、咨询服务与管理数据元素著录规范,旨在提高系统流程管理与信息管理效率,保证问答知识库的数据质量,提高知识库的利用率和准确率,提供准确、方便的网络数字参考咨询服务。
(2)QuIP数据标准
QuIP是针对基于网络的数字化参考咨询服务的问题和答案内容描述的一个交换协议。以分布式协作型为基础,为Internet不同域的用户设计。QuIP是一种基于元数据的线程化的数据格式,能以统一的格式维护、跟踪、存储咨询服务的问题和答案。其核心是一个问答流。数字咨询交换是多个问题/答案的交互。这种交换可能是多个交互,包括问题主题和咨询人员或用户的变化或变更。QuIP是面向过程的。QuIP支持基于多个服务器的问题和答案序列的知识共享的发展,辅助平衡服务器之间的问题负载。QuIP有三个主要概念:元数据模式,语法绑定,协议集。QuIP可分为两个部分:
①元数据。确定数据存储、交换的结构和格式。
②协议。协议能够实现计算机到计算机的事务处理(如处理问题)和其它服务(如提问状态)。
3 问答知识元数据研究
3.1 数据元素特征
知识库格式和标准建有数据元素、字段或者数据词典,力图使问答过程的描述和数据库的存储格式化、标准化。
咨询问答过程(交互)中通常有若干个属性。每个属性可能会有子元素,或子属性。
以QuIP数据标准为例,可以得出知识库数据元素一般具备以下特征:
(1)数据元素是可强制、有条件或可选择的。
(2)数据元素可重复或不可重复。
(3)可预定元素值。
(4)元素和属性可扩展。
(5)建立一些控制元素。
(6)建立唯一识别符,一般分为“注册识别符”和“
本地识别符”两种。
(7)建立注册信息元素。
3.2 数据元素设置
知识库格式一般由数据字段(即元素属性)和数据元素(即属性子元素)组成。根据目前已有的几个数字参考咨询数据库格式内容,通常数据字段分四个部分:问题字段、答案字段、成员描述字段和代理描述字段。
问题字段和答案字段十分相似,都有提问/回答跟踪、成员馆、控制、内容等几个部分。提问/回答跟踪字段有提问/回答代码、时间和日期标识等元素。成员馆字段主要有代码、电子信箱、网址,馆藏实力、馆员实力、回答范围、回答数量、代理份额、技术环境等元素。控制字段包括对问题难度、教育层次、提问/拒绝原因、词表、分类表,已查资源、时间限制的说明性元素。内容字段则包括具体问题/答案的内容、提问关键词、答案引文等元素。另外,问题字段还包括一个最终用户手段,对个体用户的说明。咨询服务代理(方)描述字段主要有名称、地址、电子信箱、网址、实力等元素。
目前OCLC提出的QP(QuestionPoint)元素和虚拟咨询台(VRD)研究的QuIP数据元素如下:
(1)QP数据元素设置
OCLC的QP(QuestionPoint)数据库格式以及数据元素主要包括五个部分:
①用户、代理users/agents;
②成员档案数据库memberprofiedatabase;
③提问管理器requestmanager;
④知识库knowedgebase;
⑤服务水平协议serviceeveagreement.其成员馆描述分为几个层次:没有或最少信息型、基本信息型、指导支持型、研究型、全面型。
QP也设置了问题字段和答案字段,分别对问题和答案的具体描述。问题字段包括问题内容、机构、提问文件、提问来源、教育水平、关键词、提问日期、主题、地理代号、机构代号、代理代号、提问原因、提问语言、已查资源等元素(或子元素)。答案字段包括答案内容、机构名称、答案状态、关键词、机构代号、回答日期、格式、答案语言、当前问答状态等元素(或子元素)。
(2)QuIP数据元素设置
虚拟咨询台(VRD)使用的QuIP数据元素按其间关系可以形成一个等级树状表。QuIP线程位于最上层,包括QUID标识号和问答交互(interchange)。QUID又分为注册号和本地号,交互流则包括次序、发起者、日期、状态,交互控制,主题、内容等几个部分。其中,发起者是对提问/回答的组织或个人情况的描述,有名称、地址、电子信箱、电话号码以及在问答过程中的角色(回答者的资格或资历、专业水平)等几方面。内容是对问答具体内容的描述,包括格式、语种、描述、信息正文四个方面。
2002年QuIP推出了2.0版的草案,对QuIP元素作了较大修改和精简。Interchanges用event代替,date用temporaindicator代替,text用body代替。调整后的元素等级表更为简明清晰,主要由两个一类对象Profie和Event组成,把问答发起者、代理的描述和问答流的描述区分开来,这与CDRS的元素结构更接近了。Profie包括代码(PID)和描述内容(P_Content)两部分;Event包括状态(State)、次序(Sequence)、内容(Content)、主题(Subject)、发起者(Actor)、时间标识(temporaindicator)、控制(Restriction)等几个部分。其中,内容依旧由格式、语种、正文几方面组成。
3.3 数据元素与DC元数据的映射关系
DC(DubinCore)正在成为元数据的通用语言,因此在问答知识库元素与DC元数据间实现映射有一定的意义。VRD在制定知识库标准时就注意其QuIP元素与DC元数据的对应和映射。DC是对文件对象进行最基本的描述,而知识库是将一次问答交互等同于一个文件,对问答数据交互进行描述,所以二者之间不能进行简单的映射。另外,问答交互文件是动态的,在用户和服务器,服务器和服务器之间进行数据交换时,是不断变化的。DC元数据的特征之一就是可以根据特定的团体和应用需求进行扩展。因此,知识库的许多元素可以从DC中扩展而来,当然也有DC中不存在的元素。
3.4 问答数据的XML描述
问答数据可以用多种方式进行描述,并能基于不同协议进行传输。例如,具有自己的DTD文件,能与XML语言进行绑定。以QuIP为例:
QuIP的DTD片断:
<!――TherootofaQuIPthreadedinterchange.――>
<!ELEMENTQuIPThread(QUIP,Interchange+)>
<!――Auniqueidentifierofthread.――>
<!ELEMENTQUIP(QUIPRegistryID.Loca_ID)>
<!――Basicrepeatingeementofathread.――>
<!ELEMENTInterchange
(Sequence,Instigator,Dates+,State?,Restriction*,Subject,Content+>
<!ELEMENTQuIPRegistryID(#PCDATA)>
<!ELEMENTLocaID(#PCDATA)>
4 分布式参考咨询服务标准研究与设计
“分布式参考咨询服务系统”是中国科学数字图书馆研究项目。在考察了国内外分布式数字参考咨询系统的基础之上,针对我院文献情报系统网络文献信息服务的需要与发展,研究和设计了一个基于网络环境下的“分布式参考咨询服务系统。
系统建于通用性网络平台之上,整个参考咨询系统采用“咨询控制中心+成员馆”的模式。主要包括单馆式和实时参考咨询。系统集成二种参考咨询方式:脱机模式(Offineinteraction),实时联机(
Reatimeinteraction)。系统由读者服务系统和管理系统组成,读者服务系统能够提供:读者注册、我的问题、表单咨询、E-mai咨询、实时咨询、网站内容发布、咨询专家推介、问题征解,最新问题/答案列表、Q/A检索、FAQ、服务声明、系统帮助等功能。管理系统功能主要包括系统的服务与管理以及11个子系统的运行管理。
4.1 数据模型研究与设计
根据分布式数字参考咨询服务实际环境设计和建立系统数据标准。以元数据设计为基础,通过对分布式数字参考咨询过程、管理对象、对象与过程间关系、管理过程以及知识组织与利用进行分析和分解,建立了系统服务标准设计逻辑功能,并在此基础上构建了分布式数字参考咨询服务系统标准数据模型,基于这个数据模型,设计并建立了分布式数字参考咨询服务的整个业务流程管理、咨询专家(成员馆管理)调用、咨询质量控制与评价和知识信息组织与利用描述元数据标准与规范。分布式数字参考咨询服务及系统数据模型如图1:
附图
图1
4.2 数据库格式与标准研究与设计
为了保存和共享丰富、有价值的信息和学科专业知识以及专家资源,提高系统的自动化和智能化管理程度,提供更多、更便捷的信息和专业知识导航,系统按照上述数据模型,分析提出了实现业务流程、专家管理、质量控制、问答知识组织与利用等各个环节、过程的数据元素,形成了系统的数据文件模型,并在此基础上提出并建立了系统数据库格式与标准。
分布式参考咨询系统数据库格式和数据标准是基于元数据设计制定的数据格式与标准。数据标准结构主要包括答案表、问题分配表、分类表、专家表、问题征询表、成员馆表、读者表、问题请求表、主题词表等9个数据表。
(1)答案表的元素设计主要有:回答、请求、次序、专家、成员、回答类型、答案内容、语言、格式、版权、时间、参考资源、质量评价等。
(2)问题分配表数据员主要有:问题分配、请求、专家、分配时间、响应时间、完成时间、答复结果。
(3)分类表的数据元素主要包括:分类号,类别名称、类别等级等。
(4)专家表数据元素有:专家识别号、专家注册、密码、角色、专家姓名、成员、教育程度等。
(5)问题征询表元素主要包括:请求识别号、次序、出处,发起者、主题、全文等。
(6)成员馆表的数据元素有:成员馆识别号、成员馆名称、成员馆服务时间、成员馆数字参考URL、成员馆地址、电话等。
(7)读者表数据元素主要包括:读者识别号E-mai、密码、姓名、国别、地址、邮编、电话等。
(8)问题请求表数据元素有:请求识别号、读者识别号,成员识别号、分类号、问题主题、词汇、问题深度、问题难度,响应时间、处理状态、发表确认、问题IP地址等。
(9)主题词表数据元素主要包括:词表识别号、分类号、主题词。
在设计分布式参考咨询服务与管理数据标准时充分注意采用元数据标准和开放描述语言(例如DC元数据、XML、DTD)并保持与之直接对应关系,以增进系统数据标准的开放性和规范性。
4.3 咨询服务与管理数据元素著录规范
咨询服务与管理标准化工作将提高系统的流程管理与信息管理效率,增加网络参考咨询务工作中各个不同成员之间、不同平台与环境之间信息的互操作能力,提高参考咨询服务质量,保证问答知识库的数据质量,提高知识库的利用率和准确率,分布式参考咨询服务系统准备进一步研究和制定有关数据著录规范。
(1)知识库数据著录规范
问答知识库是由若干组经过核实、标引、编辑的问答记录所组成的可供检索的数据库。知识库可为读者和咨询专家提供答案检索服务,根据知识库的数据格式与标准要求,知识库的数据收入范围规定设计为:
①凡有保留价值的问题/答案须编辑处理、标引加工,存入知识库;
②凡属常见、常识性问题/答案应编辑处理、标引加工,存入知识库;
③凡属一般性科技知识类问题/答案应编辑处理、标引加工,存入知识库;
④凡属事实性(数据、名词解释)问题/答案应编辑处理、标引加工,存入知识库。
⑤凡有具体出处(网址除外)等文献信息指南性答案应编辑处理、标引加工,存入知识库;
⑥凡有明确的信息检索查询指导步骤的答案应编辑处理、标引加工,存入知识库。知识库的数据著录规定设计为:
⑦对问题/答案中的个人信息:姓名、E-mai地址、机构名称、密码、国别、地址、邮编、电话等信息经删除后编辑加工入数据库;
⑧答案中引用的文献信息书目须采用《国家文献著录标准―检索期刊条目著录规则》(GB3793-92)格式进行规范处理;
⑨对问题/答案进行学科分类审核和维护;
⑩用系统知识库分类主题词汇,对问题/答案进行主题词或关键词标引。
(2)系统数据元素著录规则
根据分布式参考咨询服务系统数据库建设,设计和制定了9个数据元素著录规则:
①答案数据著录规则 ②问题分配数据著录规则
③分类数据著录规则 ④专家数据著录规则
⑤问题征询数据著录规则 ⑥成员馆数据著录规则
⑦读者数据著录规则 ⑧问题请求数据著录规则
⑨主题词数据著录规则
国家科学数字图书馆分布式参考咨询服务系统是基于开放体系结构的数字化网上咨询服务系统,通过开放建设和集成各种分布、 异构服务和多样化数字信息资源,形成个性化的虚拟参考咨询服务和完善的服务机制。为了保证数字参考咨询服务顺利开展,并高效、可持续进展,分布式参考咨询服务系统将不断按照国际化、开放性、技术成熟性等原则,明确确定本系统的各项服务与管理标准,以提供准确、方便的网络数字参考咨询服务。
