CopyRight 2009-2020 © All Rights Reserved.版权所有: 中国海关未经授权禁止复制或建立镜像
基于NAS的数字档案存储管理与实践研究
作者:刘 悦1 张翔宇2* 张 月3
刘 悦1 张翔宇2* 张 月3
摘 要 档案数字化能够把各种载体的档案资源转化为数字化的档案信息,以数字化的形式存储,数字档案通过NAS技术的加持,启用NAS网络存储设备和磁带库,能够实现基于NAS的数字档案的在线管理、近线管理以及离线管理,实现了对海量数字档案资源的高效便捷管理与应用。
关键词 数字档案;在线管理;近线管理;离线管理;存储
Research on Storage Management and Practice of Digital Archives Based on NAS
LIU Yue1 ZHANG Xiang-Yu2* ZHANG Yue3
Abstract Archives digitization can transform the archives resources of various carriers into digital archives information and store them in the digitalized form. With the support of NAS technology, the digital archives can realize online management, near-line management and offline management of digital archives based on NAS, and undertake efficient and convenient management and application of massive digital archives resources.
Keywords digital archives; online management; near-line management; offline management; storage
档案数字化是随着计算机技术、矩阵扫描CCD技术、OCR技术以及数据库技术、存储技术的发展而产生的一种新型档案信息形态。它能够把各种载体的档案资源转化为数字化的档案信息,以数字化的形式存储、网络化的形式连接,利用计算机系统进行管理,形成一个有序结构的档案信息库,及时提供利用,实现资源共享。数字档案相比传统纸质档案,具有缩短档案文件查阅时间、保障原文安全、提高原文利用率、便于远程查阅与管理等优点。本文结合笔者自身工作实践与大家分享基于NAS的数字档案存储管理与实践研究的成果。
1 数字档案发展状况以及业内相关单位存储管理情况
我国的数字档案管理多采取以历史数据离线存储为主,增量数据在线存储相结合的模式进行管理。离线存储以线性磁带作为存储介质,在线存储以磁盘阵列作为存储设施,数据大致以归档项目为单元分散管理。近几年,随着数字档案体量快速增长,数据增量达到了PB级别,原有的数字档案管理方法已不能满足新形势下的数字档案管理需求,亟需制定符合实际情况的管理维护方案,确保数字档案长期储存的安全性和完整性。在此情况下,基于NAS的数字档案存储管理系统应运而生,该系统多用于各行业、各领域数字档案馆建设。基于NAS的数字档案存储管理系统是信息化时代档案管理工作发展的方向所在,是国家信息基础设施的重要组成部分,已成为评价一个国家信息基础水平的重要标志。
目前,在数字档案存储领域中,全国地质资料馆采用“4-3-2”的长期存储策略建立“两地三点”的保管保障体系,“4-3-2”是指4种备份介质,3种物理载体,2种永久且可移动,分别为硬盘、档案级光盘、蓝光光盘和磁带。“两地三点”是指主馆两套硬盘,同城异地一套蓝光光盘和一套磁带,异地备份一套档案级光盘和一套磁带[1]。国家图书馆采用了“两地三中心”的存储架构,即主存储中心为在线硬盘库一份、离线硬盘库一份和磁带库一份,同城灾备中心为磁带库一份,异地战略储备中心为磁带库一份[2]。国家档案局在2016年颁布实施的国家标准《电子文件归档与电子档案管理规范》[3]第九章节“电子档案的管理”:宜采用磁带备份系统进行近线备份。离线存储介质至少应制作一套,可根据异地备份、电子档案珍贵程度和日常应用需要等实际情况,制作第二套、第三套离线存储介质。结合业内和自身经验来看,三套备份是最经济、最稳妥的存储方案。
2 数字档案存储管理与实践研究
以国家基础地理信息中心为例,在2016年底对档案信息化基础设施进行了整体升级:新增部署480TB的NAS云存储,缓解了在线存储空间的捉襟见肘;新增部署大型磁带库,配备有16个LTO6磁带驱动器,1万个磁带槽位,机械手3个,理论容量为25PB,实现了近线介质的自动化管理。目前NAS已存有数据334TB,空间使用率为69%,磁带库已管理磁带9195盘,数据量为15PB,介质使用率为85%。新型存储技术装备的启用充分发挥了高效的作用,从而完成了基于NAS的在线、近线、离线的国家测绘基础地理数字档案资源存储管理布局。
图1 数字档案资源存储布局
Fig.1 Storage layout of digital archive resources
2.1 数字档案资源的在线管理
增量数据、历史热点数据、临时数据等非长期保管的数字档案资源一般部署在NAS平台上,进行在线管理和应用。NAS底层架构按照不同业务模块划分存储配额,构建文件系统,分配用户和角色,并结合WINDOWS Sharing(SMB)共享协议进行网络连接。NAS的接口可支持档案业务管理部门的OA系统,提供数据服务功能,进一步提高海量数字档案资源管理水平。对于比较重要的增量数字档案资源,可利用NAS产品自身的灾备功能,在主机层将数据同步迁移至灾备中心,同时利用磁带库进行定时循环全备份,降低在线数据灭失风险,防止在线数字档案资源损坏。
2.2 数字档案资源的近线管理
2.2.1 存量离线数据转储
数字档案具有内容和载体可分离性,目前档案界较为普遍的现状是随着新技术的发展和时间的推移,不断地将保存的数字档案从旧介质向新介质迁移。此前,离线数据备份方式是独立磁带机的终端备份,备份介质为LTO5,按照逻辑档号人工管理。磁带库部署后采用的是多磁带机的网络备份,备份介质为LTO6,按照带标自动化管理。两者在工作机制上存在较大差异。
如图2所示,逻辑档号由14位字符组成,前4位“TD0B”代表“测绘类数字档案”,中间7位“2015006”代表“2015年第6盘”,最后1位“B”代表“B份数字磁带”。如图3所示,磁带条形码带标由6位字符组成,为机读标识码。
存量数据如果继续采用旧模式管理,需要保留设备、占用额外的储备场地,并且手工出库降低读取效率,势必要增加管理成本。采用对存量数据存储介质逐一追加带标,物理清点介质存储内容,更新EMM数据库,并发起过期导入的方法,可将存量历史离线数据无损纳入磁带库管理。
2.2.2 增量数据近线备份
数字档案备份同质同构一式三份,分为A份,B份,C份。A份作为Primary主拷贝置于磁带库近线管理,同时作为热数据以供服务。根据不同备份作业单元划分磁带池、备份客户端,构建备份策略,基于NAS使用NBU系统对增量数字档案进行备份,单盘数据量不超过标准容量的95%,一次性写入,不压缩、不加密。同时开展备份日志登记工作,形成数字档案资源存储清单。备份完成后进行Frozen写保护控制。
图2 LTO5磁带
Fig.2 LTO5 Tape
图3 LTO6磁带
Fig.3 LTO6 Tape
图4 数字档案近线管理模式
Fig.4 Near-line Management Mode of digital archives
2.2.3 近线数据还原
由于磁带库管理着历史转储数据,需使用支持BE的NBU客户端软件,例如7.6.1.2版本。存量历史离线数据选择从BE还原,其他数据选择从正常备份还原。结合《国家测绘档案业务管理系统》和数字档案资源存储清单,指定数据集的备份计算机和策略,依据备份时间戳,选取恢复文件进行restore数据还原,实现数字档案资源取用。
2.3 数字档案资源的离线管理
2.3.1 离线保管
数字档案的B份置于异地备份库管理,C份作为副本置于本地储备库管理。即B份为异地离线保管,C份为本地离线保管。离线存储的磁带应及时装入磁带盒,并在卡纸背脊上粘贴数据档号标签。数据档号具有唯一性,可指导实体排架。离线存储的磁带应存在专门的库房,保管环境温度在15℃~24℃,相对湿度在40%~60%,远离强磁场、热源、粉尘。
2.3.2 介质读检
数字档案维护依据档案行业标准《档案数据存储用LTO磁带应用规范》[4]的规定,自备份之日起每满5年进行随机抽样检测,保障数字档案资源的安全有效。抽样方案根据国家标准《计数抽样检验程序 第一部分:按接收质量限(AQL)检索的逐批检验抽样计划》[5],确定批量、样本量、抽样间隔、接收数Ac和拒收数Re。
磁带读检分为两步。第一步:用磁带机进行verify加载检测;第二步:用磁带诊断仪进行介质分析。过程中如出现绕带错误或者介质评估为“优”以下,视为不合格,需重新备份并更新,不合格带立刻下架。不合格数如果超过拒收数Re,则认为该批次不合格,需扩大样本量至该批次的50%,如果再次超过拒收数Re,需100%全检。
图5 置于防磁保密柜的磁带
Fig.5 Magnetic tape in a magnetic-shielded cabinet
— — 使用箭头下面的第一个抽样方案。如果样本量等于或超过批量,则执行100%检验。
—— 使用箭头上面的第一个抽样方案。
Ac ——接收数。
Re ——拒 收数。
图6 一次抽样方案检查表
Fig.6 Check list of primary sampling plan
图7 磁带生命周期诊断仪及分析软件
Fig.7 Diagnostic instrument and analysis software for magnetic tape life cycle
2.3.3 介质销毁
数字档案出现读写故障、过期处理(装载次数超过400次或者保管时间超过10年)、更新替换等需要进行下架销毁。涉密介质销毁工作应遵照《国家秘密载体销毁管理规定》[6]执行,须履行清点、登记、审批手续,送交有资质的承销单位销毁,销毁清单及凭证应长期保存。
3 结语
面对海量数据日益增长的新形势,探索利用新型信息化装备,充分发挥不断迭代发展的数字存储技术优势,采用在线、近线、离线相结合的存储管理模式,实现了对海量数字档案资源高效、便捷的管理,确保数字档案的安全与有效。
【该文经 CNKI 学术不端文献检测系统检测,总文字复制比为 6.3%。】
参考文献
[1]贾国锋, 电子档案长期安全保存实践与建议[J].档案天地, 2016(9): 46-48.
[2]邢军, 国家图书馆数字存储现状和发展策略[J].数字与缩微影像, 2016(4): 8-10.
[3] GB/T 18894-2016,电子文件归档与电子档案管理规范[S].北京:中国标准出版社, 2016.
[4] DA/T 83-2019, 档案数据存储用LTO磁带应用规范[S].北京:中国标准出版社, 2019.
[5] GB/T 2828.1-2012, 计数抽样检验程序 第一部分:按接收质量限(AQL)检索的逐批检验抽样计划[S].北京:中国标准出版社, 2012.
[6] 国家保密局厅字〔2009〕18号.国家秘密载体销毁管理规定[G].
(文章类别:CPST-A)