浅谈大数据环境下的数字图书馆建设
时间:2018-02-19
随着大数据技术的飞速发展,数字图书馆面临的机遇远大于挑战。海量数字资源的积累,使得将大数据及其技术应用于数字图书馆建设与服务成为必然。大数据为数字图书馆的发展开辟了新途径,通过应用大数据技术管理馆藏信息资源,可以显著提高检索效率和读者服务体验,全新的数字图书馆服务模式逐渐清晰。本文主要探讨大数据环境下数字图书馆建设的思考。
[Key words] Digita ibrary; Big data environment; Characteristic resources; Information safety
数字图书馆(digita ibrary)不但是一项新的技术,也是社会服务事业的创新,它起源于1993年的美国“数字图书馆创始工程(digita ibrary initiative,简称DLI)。国内,在1997年7月,“中国试验型数字式图书馆项目(CPDLP)”由国家计委批准立项,成为国家重点科技项目,由中国国家图书馆、上海图书馆、深圳图书馆、中山图书馆、辽宁省图书馆、南京图书馆、文化部文化科技开发中心共同承担,目标是建立多馆协作、互为补充、联合一致的中国试验型数字式图书馆。该项目的实施是中国数字图书馆建设开始的标志,并由此掀开了数字图书馆建设的热潮。随着计算机技术、网络技术以及大数据的飞速发展和有机结合,数字图书馆正也在面临角色的转变:从载体多样化、结构多元化的数据集散中心到服务多元化的特殊文化场所转变。如何有效利用馆藏数据,为读者提供高效、高质量的信息咨询服务,关键在于数字图书馆对大数据及相关技术的应用。
1 大数据对数字图书馆的意义
什么是大数据?麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析等方面大大超出了传统数据库软件工具能力范围的数据集合。传统的数字图书馆,大量的馆藏资源不但结构多元化,载体更是多样化,符合以上对大数据的定义。传统数字图书馆无法发挥大数据快速流动的特性,也不利于对大数据的挖掘与知识发现。而大数据的出现与急速发展,使传统数字图书馆在大数据及其技术的应用方面得到补充:不但使馆藏数据更加有序化、流动更便捷,还可以应用语义、数据聚类等技术对馆藏数据进行处理,既能推进馆藏资源建设工作,也为读者也提供了更好的检索体验。因此,数字图书馆建设的重点应该在于数据资源的管理与应用,要跟紧大数据的发展方向,用大数据技术指导数字图书馆的建设工作。
2 大数据环境下的数字图书馆建设
在大数据环境下,数字图书馆要善于利用网络数据,把自己融入到大数据的环境中去。一方面要整合馆藏数据与网络数据,建设特色资源;另一方面要应用大数据相关技术对数字图书馆馆藏数据进行处理,带动数据资源的高效利用。提高服务质量的同时,要注重读者的使用体验,要让知识信息“行动起来”、主动找读者,而不再仅仅是人找知识。同时,也要注重数字图书馆日益凸显的信息安全问题。目前,国外如欧美等地区的数字图书馆对数字资源的整合和大数据及其技术的应用已经相对成熟,而国内在此领域的发展基本处于起步阶段,发展空间巨大。
2.1 数字图书馆的特色资源建设
特色资源目前还没有明确的概念,在笔者看来,数字图书馆的特色资源主要有两个方面:馆藏资源的积累和学科背景特色。数字图书馆要充分利用自己资源积累的优势和学科优势,合理整合网络数据,构建出具有资源优势与学科特长的特色数据库,提供高层次的专业服务。目前,网络信息提供商?^多,商品同质化严重。激烈竞争的同时也导致了资源浪费。于是,特色资源与服务就成了数字图书馆在大数据环境下发展的方向。
图书馆特色资源建设要一手抓馆藏特色资源的数字化,一手抓网络数据的采购,以馆藏特色资源为主,以网络数据为辅,扩大自身优势。首先,图书馆没必要数字化全部馆藏,数字化工作要以馆藏的特色资源为中心,结合自身馆藏特色及学科优势,合理整合资源,构建具有显著学科特点及满足用户需求的特色数据库;其次,针对海量数据资源及用户需求的不断变化,网络数据的采购要选择使用率高、学科发展快的相关资源;最后,还要重视馆藏资源与网络数据资源的整合工作;另外还要考虑馆藏情况、资金预算与网络资源的质量等问题。 对于数字图书馆来说,数据资源的整合要受到重视,随着理论和实践的不断深入,数据资源的整合机制也在不断地发展。国内对于数字图书馆的建设较晚,但发展迅速,在理论和实践中都取得了较为显著的成果,例如中国国家数字图书馆、中国高等教育文献保障系统(CALIS)、国家科技图书文献中心(NSTL)等成绩斐然。国外由于具有信息技术方面的优势,数字图书馆信息资源管理方面的成果对国内的研究有很大的参考意义。比如,英国长期保存管理者数字化服务(Conservation Manager Digitization Services)、加拿大政府开放政府工程(Open government project in Canada)、欧洲数字档案文件和知识保存项目(European Archiva Records and Knowedge Preservation)、加拿大图书馆和档案馆数字标识项目(LAC DOI)等。
2.2 大数据相关技术
大数据技术不但在概率统计、趋势分析、客户研究等方面有着出色的表现,在图情领域也具有其它技术所无法比拟的优势。在大数据环境下的数字图书馆建设中,数字资源的整合与利用是十分重要的工作,将大数据技术,例如数据挖掘、语义技术、数据聚类等,应用于数字图书馆的建设中,既有利于数字资源的建设,又可以提高数字图书馆的服务质量,是国内外所有数字图书馆建设的重点内容。
2.2.1 数据挖掘 作为高新技术,数据挖掘是数据库知识发现的重要步骤,一般是指利用计算机通过算法从大量、复杂、随机的数据中搜索隐藏信息的过程,而知识发现可以理解为更广义的数据挖掘。数字图书馆是数据库也是知识库,通过数据挖掘技术,将数据应用从简单检索上升到分析和研究的高度,有效解决数字图书馆拥有丰富资源却利用率低下的状况。同时,数字图书馆中的数据挖掘是对知识的有效重组,为数字图书馆的资源建设提供关键技术。
作为当前国内外数字图书馆研究的热点,日益成熟、完善的数据挖掘技术成为了数字图书馆建设的新工具,在理论研究和实践方面受到了越来越多的重视,它可以有力的支持数字图书馆领导层的决策、管理;同时,保证数字图书馆资源建设的科学性和合理性,对读者服务和数字图书馆的发展有重要的作用。虽然数据挖掘在数字图书馆领域起步不久,有不少问题正在研究、解决,但它在数据的组织分析和知识挖掘方面的发展势头和表现是令人肯定的。数据挖掘技术也是数字图书馆利用其他大数据技术的基础,应当对这门技术给予足够重视。
目前,数据挖掘技术已经用在数字图书馆的不少方面。例如,通过数据挖掘、知识分析和重组,可以提高检索效率和命中率。通过对出版物关键词的挖掘、分析,可以掌握历年的研究热点,以及相应学科的发展轨迹,可以及时推送、推介给同领域的读者。数据挖掘可以用于读者信息,通过对读者的专业背景、研究方向、借书记录、检索请求等信息的采集、分析、挖掘、聚类等,首先可以得知得馆藏资源的使用频率;其次可以作为文献质量评估、数据资源采购的参考依据;最后也最重要的是,可以?现读者对知识点的需求情况,进而提供读者个性化服务、提供学科信息咨询等特色服务。这对数据资源的建设和布局极具指导意义。
2.2.2 语义技术 对数据来说,语义就是指数据的含义。当数据被赋予含义后,数据就转化为可以被使用的信息。数字图书馆大量、复杂的数据本身就包含各种知识和含义,非常适合用语义技术对这些数据进行组织、管理,对数据知识进行描述、发现和揭示,从而精确、有效地表达数字图书馆资源,也是数字图书馆进行数据知识的挖掘和利用的基础。
数字图书馆要研究利用语义技术,构建数据资源间的语义网络,从而促进数据资源的知识扩充和知识挖掘。在数字图书馆中,图书分类法、主题词表等工具本身就由语义关系构建的。虽然利用这些工具构建了数据资源的语义关系,却没有涉及馆藏资源内部知识点语义网络的构建。然而大数据环境下的数字图书馆对这一点提出了要求。语义网络方便读者的检索,读者可以利用这张“大网”轻易捕获所需知识。
有调查研究显示,国外对语义技术的研究比较深入,欧美一些发达国家近年来在数字文化资源的语义关联数据模型构建、数据语义关联关系、语义关联技术等方面的研究发展迅速,相关研究已经进行系统研发,很多研究成果也相继应用于实践并开发出比较成熟的基于语义技术的数字图书馆服务系统,如Ex Libris公司的Vendors系统和欧洲数字图书馆所采用的关联数据模型等。而国内对语义技术的研究处于起步阶段,研究成果多是从理论层面探讨语义技术在数字图书馆中的具体应用,利用语义技术关联数据的实践经验不足。
2.2.3 数据聚类 简单的说,数据的聚类就是指把数据对象分为性质、特征相近的若干类,分别聚合在一起的过程。大数据环境下,面对大量、复杂、随机的数据,真正被有效利用的数据是较少的,而聚类技术为这小部分数据的高效利用提供很好的途径。应用于数字图书馆的数据聚类就是对知识语义的逻辑重组,作用于语义网络的建立、扩展、运用,也是数据挖掘与知识发现的重要环节。经过基于语义的聚类,为数据的统一描述与知识的聚合提供切入点,将会在信息服务、数据知识挖掘、发现中发挥作用。聚类技术通过不同的算法,如关联规则、K-均值算法、FCM聚类算法等,可以提高检索命中率、查全率和用于高质量资源的发现等[19,16]。
大数据技术可以理解为一系列数据处理技术的总称,数据挖掘、语义网络、数据聚类等技术在数字图书馆领域应用较多,而且是相辅相成的。随着数字图书馆建设工作的逐步深入和读者对服务需求、水平的提高,更多的大数据技术会被应用于数字图书馆领域,继续拓展数字图书馆的馆藏数据资源,提升数字图书馆的服务水平,丰富数字图书馆的产品与功能。
2.3 数字图书馆的信息安全 因为数字图书馆具有数字化、网络化、开放化等特点,所以在为读者提供方便快捷的服务同时,不可避免的面临着信息安全问题,并随着数字图书馆的发展日益严重。根据信息安全管理国际标准ISO27000,可以对数字图书馆的数据信息安全进行定义:数字图书馆的数据信息安全,就是要保证数字图书馆各种数据的保密性、完整性和可用性,使得数字图书馆提供给读者的数据信息具有真实性、可核查性、抗抵赖和可靠性。
数字图书馆的数据信息,是提供各种服务的基础。不论是印本馆藏、采购的网络数据、馆藏特色资源、书目信息还是读者借阅记录等,都是图书馆工作者多年的辛苦和付出,一旦因为自然因素、系统故障、设备损坏等原因而永久丢失,不但图书馆工作和服务陷入困境,更造成资源的巨大浪费。在进行数字图书馆安全管理时,不但要考虑自然因素、人为因素等的损坏,也要保护数据不会被盗窃和非法使用;不但要保证读者使用时能够准确、迅速地获取所需数据信息,还要保证读者隐私安全而不被侵犯;不但要保障网络安全,更要重视信息安全。数字图书馆的安全管理是项综合性的工程,应结合数字图书馆的使用、人员、管理、硬件、软件等多个环节进行考虑,提出综合性的解决方案。
另外,信息安全意识也很重要。在2015年与2016年期间有调查表明,我国公民在网络信息安全技能方面虽然有所提升,但是网络信息安全意识仍然薄弱,所以培养数字图书馆读者的安全意识也应该引起重视。
3 数字图书馆建设的其他问题
数字图书馆的建设是一个综合性的工程,目的在于为读者提供更好的服务,数字资源建设只是数字图书馆建设的核心内容。从数字图书馆的建设整体考虑,笔者认为以下方面也要多规划。
3.1 合理规划印本资源建设
数字图书馆是由传统图书馆为基础发展而来,积累的印本资源也是宝贵的知识财富,可以加强数字图书馆对回溯数据的建设,并非已经全无用处。同时,做好印本资源建设不但可以满足传统读者(尤其是中老年读者)的需求,也能加强图书馆的战略资源保障意义,对“科教兴国”有重大意义。
3.2 数字图书馆实体空间的利用
随着数字图书馆的建设,大量印本书籍或数字化或被网络数据代替,于是印本书籍大量下架并腾退大量实体空间。数字图书馆实体空间的布局要进行合理规划、创新布置,比如设置休息室、读者交流空间、宣传教室、计算机室、自助打印机等。让数字图书馆既能提供远程智能服务,也能提供实体阅读空间;既有地方安静的查阅资料,也有地方激烈的交流辩论。数字图书馆并不是一味的高科技加成,更需要多方面的相辅相成。
3.3 加强数字图书馆的形象建设
数字图书馆完全可以利用自身学科优势、人员优势、资源优势,定期举行学术讲座、检索培训、信息获取技巧、科学知识普及等活动积极宣传自己的服务与产品,面向对象不只是专业的科研人员,也面向人民大众。逐渐改变数字图书馆是“上网查资料、上自习的好地方”的观念,在读者心目中建立起能读、能查、能交流、能休息、以人?楸镜摹岸嘣?化文化广场”的数字图书馆新形象。
4 结语
随着大数据时代的到来,大数据给数字图书馆带来的不仅是挑战,更是一种机遇,具备较高服务水平与资源建设能力的数字图书馆会成为业界排头兵,带领数字图书馆的向前发展。大量、复杂的数据考验着数字图书馆与时俱进的能力,不断更新的大数据技术为数字图书馆建设的有力支撑和保障,大数据环境下的数字化图书馆建设,有效促进了数据的共享,使海量信息更快、更好地传播;大数据技术对于数据的处理,能够优化和深化数字图书馆的服务职能,满足读者对检索结果的更高要求,这既是自身建设的需要,又是信息技术潮流影响下的必然结果。但是,数字化图书馆的建设不但需要投入大量的人力、物力和专业技术,还要紧跟大数据技术前沿,这需要长期并且持续的用大数据思维审视数字图书馆的建设,使未来数字图书馆在大数据环境下不断创新。
参考文献
[1]地更良.朱树金. 数字图书馆的定义及构成要素分析[J]. 晋图学刊.2003(1).
[2]张安法. 大数据时代要有大数据思维.中国军网.2017年4月10日.
[3]黎建烷.沈志宏.孟小峰. 科学大数据管理概念、技术与系统[J]. 计算机研究.
[4]刘炜.关于“下一代图书馆系统 ”的思考[J]. 国家图书馆学刊.2015(5).
[5]杨将燕. 大数据时代的图书馆服务浅析[J]. 图书与情报.2012(4).
