数据备份顾名思义,就是将数据以某种方式加以保留,以便在系统遭受破坏或其他特定情况下,重新加以利用的一个过程。数据备份的根本目的是重新利用,这就是说,备份工作的核心是数据遭到破坏时能够恢复数据。对于一个完整的信息化系统而言,数据备份系统是其中必不可少的组成部分,其所处地位和作用都是不容忽视的。其意义不仅在于防范意外事件的破坏,而且还是历史数据保存归档的最佳方式。换而言之,即便系统正常工作,没有任何数据丢失或破坏发生,备份工作仍然具有非常大的意义。
目前,统计部门掌握着大量重要的统计数据资源,如大型普查数据、日常统计报表数据等,这些数据资源对经济社会的发展所起的作用越来越大,社会各界对统计数据的关注程度越来越高。如何保护这些数据的安全,从而保证业务系统稳定可靠地运行,这是统计信息化建设中要考虑的重要问题。本文从保障统计数据的安全性出发,强调在统计信息化建设中要有一种未雨绸缪的主动性,深刻理解统计数据备份系统建设的重要性。
建设一个数据备份系统,主要涉及备份介质、备份方式和备份计划等3个方面。下文将结合统计系统的实际,对统计数据备份系统的建设作出分析和探讨。
一、对统计数据备份介质的选择
建设数据备份系统,首选就是要对数据备份的介质进行分析和选择。目前比较流行的数据备份介质包括磁盘介质存储、光学介质、磁带/磁带机存储。
磁盘介质存储与磁带/磁带机存储和光学介质备份相比,最大的弱点就是价格极其昂贵的。磁盘介质存储虽然可以提供容错性解决方案,但容错却不能抵御用户的错误和病毒,一旦两个磁盘在短时间内失灵,在一个磁盘重建之前,不论是磁盘镜像还是磁盘双工都不能提供数据保护。因此,在大容量的统计数据备份方面,采用磁盘介质存储作为备份介质并不是最佳选择。
与磁盘介质存储相比,虽然光学介质备份提供比较经济的存储备份解决方案,但它们所用的访问时间要比其他的介质长2到6倍,并且存储数据的容量也相对较小。当备份大容量数据时,所需光盘数量较大,而且备份时需要人工的干预,无法实现自动化。虽然保存的持久性较长,但整体可靠性较低。所以光学介质也不是大容量统计数据备份的最佳选择。
磁带/磁带机无论在容量上还是在安全性上都比上述2种介质更加优秀。在大容量数据备份方面,磁带机所具有的优势是:容量大并可灵活配置,虽然速度相对适中,但介质保存长久,存储时间超过30年,成本较低,数据安全性高,可实现无人操作的自动备份。磁带还具有体积小巧、容易异地存放等优点。而且,磁带备份技术诞生至今已经有50多年,经受住了时间的考验,应该说是一项非常成熟的技术。
考虑到统计系统数据量极大,对数据安全性要求也极高,结合介质的容量、安全性和灵活性等因素,通过对3种介质的比较,我们认为选择磁带/磁带机存储作为统计数据备份的介质较为理想。
二、对统计数据备份方式的分析
目前主要的数据备份方式有:LAN备份、LAN Free备份和SAN Server-Free备份三种。先从数据备份量的大小、对服务器资源的占用率以及系统的建设成本等3方面特性分别对上述3种备份方式进行分析。
(一)基于LAN备份。传统备份需要在每台主机上安装磁带机备份本机系统,采用LAN备份策略,在数据量不是很大时候,可采用集中备份。一台中央备份服务器将会安装在LAN中,然后将应用服务器和工作站配置为备份服务器的客户端。中央备份服务器接受运行在客户机上的备份代理程序的请求,将数据通过LAN传递到它所管理的、与其连接的本地磁带机资源上。这一方式提供了一种集中的、易于管理的备份方案,并通过在网络中共享磁带机资源提高了效率。
(二)LAN-Free备份。由于数据通过LAN传播,当需要备份的数据量较大,备份时间窗口紧张时,网络容易发生堵塞。在SAN环境下,可采用存储网络的LAN-Free备份,需要备份的服务器通过SAN连接到磁带机上,在LAN-Free备份客户端软件的触发下,读取需要备份的数据,通过SAN备份到共享的磁带机。这种独立网络不仅可以使LAN流量得以转移,而且它的运转所需的CPU资源低于LAN方式,这是因为光纤通道连接不需要经过服务器的TCP/IP栈,而且某些层的错误检查可以由光纤通道内部的硬件完成。在许多解决方案中需要一台主机来管理共享的存储设备以及用于查找和恢复数据的备份数据库。
(三)SAN Server-Free备份。LAN Free备份对需要占用备份主机的CPU资源,如果备份过程能够在SAN内部完成,而大量数据流无需流过服务器,则可以极大降低备份操作对生产系统的影响。SAN Server-Free备份就是这样的技术。
三种方式中,LAN备份数据量最小,对服务器资源占用最多,成本最低;LAN free备份数据量大一些,对服务器资源占用小一些,成本较高;SAN Server-free备份方案能够在短时间备份大量数据,对服务器资源占用最少,但建设成本最高。根据上述分析,由于统计系统数据量极大,对服务器资源的要求也较高,认为LAN备份方式不适合统计数据备份;如果资金允许,采用SAN Server-Free备份方式是最佳选择。
三、对统计数据备份计划的探讨
根据目前统计系统的现状,概括起来,统计数据可以分为日常性数据和永久性数据。日常数据是指那些没有核定的数据,即其中的少数指标在数据处理或抽样调查、特别是大型普查后,还需要做一定修正。而永久性数据是指核实后便成为事实的数据、历史的纪录,不会再改变,如大型的普查数据。结合目前常用的三种备份计划:全备份(Full Backup)、增量备份(Incremental Backup)和差分备份(Differential Backup),我们建议日常性数据适合采用差分备份的数据备份计划,而永久性数据则应该采用全备份的数据备份计划。
(一)全备份。所谓全备份,就是对整个服务器系统进行备份,包括服务器操作系统和应用程序生成的数据。全备份的特点就是备份的数据最全面、最完整。当发生数据丢失的灾难时,只要用一盘磁带(即灾难发生前一天的备份磁带),就可以恢复全部的数据。由于是对整个服务器系统进行备份,因此数据量非常大,占用备份的磁带设备比较多,备份时间比较长。如果每天进行这种全备份,则在备份数据中会有大量内容是完全重复的,例如操作系统与应用程序。这些重复的数据占用了大量的磁带空间,对用户来说意味着增加备份成本。由于统计历史数据一旦确定,无需更改,不用进行每天备份,只需要一次备份即可,因此这种方法适合对历史统计数据的备份,但不适合对日常统计数据的备份。
(二)增量备份。增量备份指每次备份的数据只是相当于上一次备份后增加的和修改过的数据。这种备份策略的优点是节省了磁带空间,缩短了备份时间。这种方案的缺点在于,当灾难发生时,数据的恢复比较麻烦。例如,系统在星期三的早晨发生故障,丢失了大量的数据,那么现在就要将系统恢复到星期二晚上时的状态。这时系统管理员就要首先找出星期天的那盘完全备份磁带进行系统恢复,然后再找出星期一的磁带来恢复星期一的数据,然后找出星期二的磁带来恢复星期二的数据。很明显,这种备份恢复很繁琐。另外,这种备份的可靠性也很差。在这种备份方式下,各盘磁带间的关系一环套一环,其中任何一盘磁带出了问题都会导致整条链子脱节。比如在上例中,若星期二的磁带出了故障,那么管理员最多只能将系统恢复到星期一晚上时的状态。这种备份虽然节省了磁带空间、缩短了备份时间,但还是存在一定的局限性。
(三)差分备份。差分备份就是每次备份的数据都是相对于上一次全备份之后新增加或修改过的数据。例如,管理员先在星期天进行一次系统完全备份,然后在接下来的几天里,管理员再将当天所有与星期天不同的数据(新的或修改过的)备份到磁带上。差分备份策略在避免了以上两种策略的缺陷的同时,又具有了它们的所有优点。首先,它无需每天都对系统做完全备份,因此备份所需时间短,并节省了磁带空间;其次,它的灾难恢复也很方便,系统管理员只需两盘磁带,即星期一磁带与灾难发生前一天的磁带,就可以将系统恢复。所以,日常统计数据采用差分备份进行备份是较为理想的选择。
四、数据备份日常管理建议
无论使用何种数据备份介质、方式与计划,都离不开良好的日常管理工作,建议采取以下措施来做好统计数据备份系统的日常管理维护工作。
第一,健全制度,加强管理。建立健全数据备份管理制度,完善管理措施。并要求每一项备份工作都设置明确的职责岗位和人员,针对不同的情况,则采取不同的防范措施,降低风险的同时也提高管理的效率。
第二,通过培训,增强意识。加强对人员的数据安全的意识培训、技术培训,增强数据安全意识的同时也提高了他们的技术水平。
第三,定期评估,排除隐患。制定一套风险分析或风险评估的体系,定期对全局所有应用系统安全运行的各种风险因素进行分析与评估,并提出相应的对策和改进方案,及时排除数据备份系统上的安全隐患。
总的来说,要使统计数据备份系统能很好的发挥作用,除了做好系统的建设工作外,更应该加强日常的管理维护工作,才能保障数据备份工作正常有效的进行,为统计工作保驾护航。