跟着高功用核算由传统的主机方法向络化集群演化,传统的根据主机的存储架构已逐步向络化存储展开,核算和存储别离的趋势越来越显着。针对SAN和NAS的缺乏,国际上已展开针对Linux集群的新式文件体系――目标存储文件体系的研讨,搜索引擎优化推行公司"本文要点论说了存储目标文件体系的架构、技能特色,并针对Lustre目标存储文件体系进行了开端测验,成果标明目标存储文件体系在可扩展性、功用、易用性等方面都有显着进步,跟着络化存储技能的不断老练,目标存储文件体系将成为重要的展开方向。

一、导言

高功用核算已由传统的主机方法逐步向集群方法演化,如TOP500中,1998年只要2台体系是集群方法,而到2003年已有208台为集群体系。跟着高功用核算体系结构的展开变化,传统的根据主机的存储架构已成为新的瓶颈,不能满意集群体系的需求。集群的存储体系有必要有用处理两个首要问题:(1)供给同享拜访数据,便于集群运用程序的编写和存储的负载均衡;(2)供给高功用的存储,在I/O级和数据吞吐率方面能满意成百上千台规划的Linux集群服务器聚合拜访的需求。现在,络化存储已成为处理集群体系高功用存储的有用技能途径。

国际上首要有两类络化存储架构口碑推行",它们是经过指令集来区别的。第一类是SAN(StorageAreaNetwork)结构,它选用SCSI块I/O的指令集,经过在磁盘或FC(FiberChannel)级的数据拜访供给高功用的随机I/O和数据吞吐率,它具有高带宽、低推迟的优势,在高功用核算中占有一席之地,如SGI的CXFS文件体系便是根据SAN完结高功用文件存储的,可是由于SAN体系的价格较高百科建造",且可扩展性较差,已不能满意不计其数个CPU规划的体系。第二类是NAS(NetworkAttachedStorage)结构,它选用NFS或CIFS指令集拜访数据,以文件为传输协议,经过TCP/IP完结络化存储,可扩展性好、价格便宜、用户易办理,如现在在集群核算中运用较多的NFS文件体系,但由于NAS的协议开支高、带宽低、推迟大,不利于在高功用集群中运用。

针对Linux集群对存储体系高功用和数据同享的需求,国外已开端研讨全新的存储架构和新式文件体系,希望能有用结合SAN和NAS体系的长处,支撑直接拜访磁盘以进步功用,经过同享的文件和元数据以简化办理,现在目标存储文件体系已成为Linux集群体系高功用文件体系的研讨热门,如ClusterFileSystems公司的Lustre、Panasas公司的ActiveScale文件体系等。Lustre文件体系选用根据目标存储技能,它来源于卡耐基梅隆大学的Coda项目研讨作业,2003年12月发布了Lustre1.0版,估计在2005年将发布2.0版。Lustre在美国能源部(U.S.DepartmentofEnergy:DOE)、LawrenceLivermore国家实验室,LosAlamos国家实验室,Sandia国家实验室,PacificNorpwest国家实验室的高功用核算体系中已得到了开端的运用,IBM正在研发的BlueGene体系也将选用Lustre文件体系完结其高功用存储。ActiveScale文件体系技能来源于卡耐基梅隆大学的Dr.GarpGibson,最早是由DARPA支撑的NASD(NetworkAttachedSecureDisks)项目,现在已是业界比较有影响力的目标存储文件体系,荣获了ComputerWorld2004年立异技能奖。

二、目标存储文件体系

2.1目标存储文件体系架构

目标存储文件体系的中心是将数据通路(数据读或写)和操控通路(元数据)别离,而且根据目标存储设备(Object-basedStorageDevice,OSD)构建存储体系,每个目标存储设备具有必定的智能,能够主动办理其上的数据散布,目标存储文件体系一般有以下几部分组成。

1、目标

目标是体系中数据存储的根本单位,一个目标实践上便是文件的数据和一组特点的组合,这些特点能够界说根据文件的RAID参数、数据散布和服务质量等,而传统的存储体系顶用文件或块作为根本的存储单位,在块存储体系中还需求一直追寻体系中每个块的特点,目标经过与存储体系通讯保护自己的特点。在存储设备中,一切目标都有一个目标标识,经过目标标识OSD指令拜访该目标。一般有多种类型的目标,存储设备上的根目标标识存储设备和该设备的各种特点,组目标是存储设备上同享资源办理战略的目标调集等。

2、目标存储设备

目标存储设备具有必定的智能,它有自己的CPU、内存、络和磁盘体系,现在国际上一般选用刀片式结构完结目标存储设备。OSD供给三个首要功用:

(1)数据存储。OSD办理目标数据,并将它们放置在规范的磁盘体系上,OSD不供给块接口拜访方法,Client恳求数据时用目标ID、偏移进行数据读写。

(2)智能散布。OSD用其本身的CPU和内存优化数据散布,并支撑数据的预取。由于OSD能够智能地支撑目标的预取,然后能够优化磁盘的功用。

东北特钢(通裕重工股吧)

(3)每个目标元数据的办理。OSD办理存储在其上目标的元数据,该元数据与传统的inode元数据类似,一般包含目标的数据块和目标的长度。而在传统的NAS体系中,这些元数据是由文件服务器保护的,目标存储架构将体系中首要的元数据办理作业由OSD来完结,降低了Client的开支。

3、元数据服务器(MetadataServer,MDS)

MDS操控Client与OSD目标的交互,首要供给以下几个功用:

(1)目标存储拜访。MDS结构、办理描绘每个文件散布的视图,答应Client直接拜访目标。MDS为Client供给拜访该文件所含目标的才能,OSD在接收到每个恳求时将先验证该才能,然后才能够拜访。

(2)文件和目录拜访办理。MDS在存储体系上构建一个文件结构,包含限额操控、目录和文件的创立和删去、拜访操控等。

(3)ClientCache共同性。为了进步Client功用,在目标存储文件体系设计时一般支撑Client方的Cache。由于引进Client方的Cache,带来了Cache共同性问题,MDS支撑根据Client的文件Cache,当Cache的文件产生改动时,将告诉Client改写Cache,然后防止Cache不共同引发的问题。

4、目标存储文件体系的Client

为了有用支撑Client支撑拜访OSD上的目标,需求在核算结点完结目标存储文件体系的Client,一般供给POSIX文件体系接口,答应运用程序像履行规范的文件体系操作相同。

2.2目标存储文件体系的关键技能

1、散布元数据传统的存储结构元数据服务器一般供给两个首要功用。(1)为核算结点供给一个存储数据的逻辑视图(VirtualFileSystem,VFS层),文件名列表及目录结构。(2)安排物理存储介质的数据散布(inode层)。目标存储结构将存储数据的逻辑视图与物理视图分隔,并将负载散布,防止元数据服务器引起的瓶颈(如NAS体系)。元数据的VFS部分一般是元数据服务器的10%的负载,剩余的90%作业(inode部分)是在存储介质块的数据物理散布上完结的。在目标存储结构,inode作业散布到每个智能化的OSD,每个OSD担任办理数据散布和检索,这样90%的元数据办理作业散布到智能的存储设备,然后进步了体系元数据办理的功用。别的,散布的元数据办理,在添加更多的OSD到体系中时,能够一起添加元数据的功用和体系存储容量。

2、并发数据拜访目标存储体系结构界说了一个新的、愈加智能化的磁盘接口OSD。OSD是与络衔接的设备,它本身包含存储介质,如磁盘或磁带,并具有满足的智能能够办理本地存储的数据。核算结点直接与OSD通讯,拜访它存储的数据,由于OSD具有智能,因此不需求文件服务器的介入。假如将文件体系的数据散布在多个OSD上,则聚合I/O速率和数据吞吐率将线性添加,对绝大大都Linux集群运用来说,继续的I/O聚合带宽和吞吐率对较大都意图核算结点是十分重要的。目标存储结构供给的功用是现在其它存储结构难以到达的,如ActiveScale目标存储文件体系的带宽能够到达10GB/s。

2.3Lustre目标存储文件体系

Lustre目标存储文件体系便是由客户端(client)、存储服务器(OST,ObjectStorageTarget)和元数据服务器(MDS)三个首要部分组成。Lustre的客户端运转Lustre文件体系,它和OST进行文件数据I/O的交互,和MDS进行命名空间操作的交互。为了进步Lustre文件体系的功用,一般Client、OST和MDS是别离,当然这些子体系也能够运转在同一个体系中。其三个首要部分如图1所示.

图1Lustre文件体系的组成

Lustre是一个通明的大局文件体系,客户端能够通明地拜访集群文件体系中的数据,而无需知道这些数据的实践存储方位。客户端经过络读取服务器上的数据,存储服务器担任实践文件体系的读写操作以及存储设备的衔接,元数据服务器担任文件体系目录结构、文件权限和文件的扩展特点以及保护整个文件体系的数据共同性和呼应客户端的恳求。Lustre把文件当作由元数据服务器定位的目标,元数据服务器辅导实践的文件I/O恳求到存储服务器,存储服务器办理在根据目标的磁盘组上的物理存储。由于选用元数据和存储数据相别离的技能,能够充沛别离核算和存储资源,使得客户端核算机能够专心于用户和运用程序的恳求;存储服务器和元数据服务器专心于读、传输和写数据。存储服务器端的数据备份和存储装备以及存储服务器扩大等操作不会影响到客户端,存储服务器和元数据服务器均不会成为功用瓶颈。

Lustre的大局命名空间为文件体系的一切客户端供给了一个有用的大局仅有的目录树,并将数据条块化,再把数据分配到各个存储服务器上,供给了比传统SAN的"块同享"更为灵敏的同享拜访方法。大局目录树消除了在客户端的装备信息,而且在装备信息更新时依然坚持有用。

#p#分页标题#e#

三、测验和定论

1、Lustreiozone测验

针对目标存储文件体系,咱们对Lustre文件体系作了开端测验,详细装备如下:

3台双至强体系:CPU:1.7GHz,内存:1GB,千兆位以太

Lustre文件体系:lustre-1.0.2

Linux版别:RedHat8

测验程序:iozone

测验成果如下:

块写(MB/s/pread)单线程两个线程Lustre1个OST2个OST1个OST2个OST21.75012.824.8NFS125.8

从以上的测验标明,单一OST的写带宽比NFS好,2个OST的扩展性很好,显现strip的作用,两个线程的聚合带宽根本等于饱满带宽,但lustre客户方的CPU利用率十分高(90%以上),测验体系的规划(三个节点)受限,所以没有向上扩展OST和client数量。别的,lustre的cache对文件写的功用提高比NFS好。经过bonnie++开端测验了lustre的元数据处理才能,和NFS比,文件创立速度相对快一些,readdir速度慢。

2、lustre小规划测验数据

(文件写测验,单位KB/s):

硬件:DualXeon1.7,GigE,SCSIUltra160软件:RedHat8,iozone

图22个OST/1个MDS

图31个OST/1个MDS

图4NFS测验

从开端的测验看,lustre的功用和可扩展性都不错。与传统的文件体系比较,目标存储文件体系具有以下优势:

(1)功用。目标存储体系结构没有其它同享存储体系中的元数据办理器瓶颈。NAS体系运用一个会集的文件服务器作为元数据办理器,一些SAN文件体系则选用会集的锁办理器,最终元数据办理将成为一个瓶颈。目标存储体系结构类似于SAN,每个结点都能够直接拜访它的存储设备。目标存储体系结构对SAN的改善是没有RAID操控器的瓶颈问题,当核算结点的规划增大时,该优势将十分显着,一切结点的总吞吐率最终将受限于存储体系的规划和络的功用。存储目标结点发送数据到OSD,OSD主动优化数据的散布,这样减少了核算结点的担负,并答应向多个OSD并行读写,最大化单个Client的吞吐率。

(2)可扩展性。将负载散布到多个智能的OSD,并用络和软件将它们有机结合起来,消除了可扩展问题。一个目标存储体系有内存、处理器、磁盘体系等,答应它们添加其存储处理才能而与体系其它部分无关。假如目标存储体系没有满足的存储处理才能,能够添加OSD,保证线性添加功用。

(3)OSD分管首要的元数据服务使命。元数据办理才能一般是同享存储体系的瓶颈,一切核算结点和存储结点都需求拜访它。在目标存储结构中,元数据服务有两部分组成:inode元数据,办理介质上的存储块散布;文件元数据,办理文件体系的文件层次结构和目录。目标存储结构添加了元数据拜访的可扩展,OSD担任自己的inode元数据,添加一个OSD能够添加磁盘容量,并能够添加元数据办理资源。而传统的NAS服务器添加更多的磁盘,则功用将更慢。目标存储体系在容量扩展时,保证继续的吞吐率。

(4)易办理。智能化的散布目标存储结构能够简化存储办理使命,能够简化数据优化散布的使命。例如,新增存储容量能够主动合并到存储体系中,由于OSD能够承受来自核算结点宣布的目标恳求。体系办理员不需求创立LUN,不需求从头调整分区,不需求从头平衡逻辑卷,不需求更新文件服务器等。RAID块可主动扩展到新的目标,充沛利用新增的OSD。

(5)安全。传统的存储体系一般依赖于Client的身份认证和私有的络保证体系安全。目标存储结构在每个等级都供给安全功用,首要包含存储设备的身份认证,核算结点的身份认证,核算结点指令的身份认证,一切指令的完整性查看,根据IPSec的私有数据和指令等。这些安全等级能够保证用户运用更高效、更易取得的络,如以太等。现在panasas现已推出了商业化的目标存储大局文件体系ActiveScale,目标存储正在被注重,Lustre也现已在(ALC、MCR)或将(RedStorm)在多个大规划集群上运用,因此目标存储文件体系将成为未来集群存储的重要展开方向。

四、称谢

本文的测验作业得到了并行文件体系研讨小组的大力支撑,特别是周恩强、董勇、林松涛、陈四建为本文供给了详实的数据,特此表示感谢。

上一页[1][2]

内容来自:口碑营销蜓云koubei.tingclouds