DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开
DOITAPP
DOIT数据智能产业媒体与服务平台
立即打开

搭建CPU+GPU 集群

随着计算机科学技术突飞猛进的发展,计算物理已经成为物理学研究过程中与理论物理,实验物理同等重要的研究方向。计算物理经常需要对海量的数据进行复杂的计算,其对处理器的浮点运算能力、I/O 性能、内存容量以及带宽都要求较高。与此同时,呈数量级增长的数据对计算机硬件也提出了更大的挑战。无论是单台计算机还是超级计算机,因构架扩展的局限性或高额的经济成本,已无法满足科学计算的需求。计算机集群因其高速的运算性能、良好的兼容性及可扩展性,逐渐被科学计算领域所认同。中科院近代物理研究所一直以重离子

核物理基础研究和相关领域的交叉研究为主要学科方向,相应发展加速器物理及核技术。目前,中科院近物所超算中心已具有深腾7000G 超级计算集群一套,胖节点集群一套,专用工作站集群一套以及终端集群一套。其中深腾7000G 超级计算集群是CPU/GPU 混合集群,其余均是自建。

自建集群搭建

硬件搭建

中科院近代物理研究所超级计算中心自主搭建的CPU集群,共有22个节点及一个24 口千兆交换机。22个节点中一个作为管理节点,其余均为计算节点。每个计算节点配置如下:Intel Q6600CPU 处理器一个、2GB内存、160GB硬盘。管理节点装有两块。

网卡,一块连接对外以太网,一块连接集群节点间组成的局域网。连接方式如图1 所示。

软件安装集群所有节点(含管理节点)均安装RHEL5.6 操作系统,采用PXE +KickSTart的无人值守批量安装方式,这样除一个服务器节点外,其余节点无需光驱或者软驱。之后,大量的计算机采用网络安装Linux操作系统,不仅提高效率,而且节点相同的配置也利于以后集群系统的维护。PXE+KickSTart的安装需要DHCP和T F T P 服务, 将其配置于管理节点,KickSTart所生成的ks.cfg配置文件,存放在系统安装文件服务器Server上,安装节点主机需PXE 支持的网卡。

服务器依次配置IP地址、DHCP 服务、TFIT 服务及NFS 服务,之后配置ks.cfg 文件。ks.cfg 文件是待安装机器所有的配置文件,每台机器在安装Linux系统后都会自动生成ks.cfg,并记录系统安装时所做的每一步操作。然后配置共享的文件夹及PXE启动方式。保存后重启,安装自动完成。集群服务的配置管理节点一块网卡接外网,另一块接交换机,交换机用于连接计算节点所组成的局域网中的每个客户端。

每个计算节点的IP地址配置好后,安装SSH,并生成公钥和私钥,之后将.SSH 文件夹复制到集群其他节点上,验证是否所有节点之间可以SSH 无密码登录。在之前安装操作系统时用到了NFS 服务,NFS 是Network File System的简称,它的最大特点是可以通过网络让不同的机器彼此共享文件。在Client端扫描可以使用的Server 共享目录,之后建立挂载点,使用mount命令挂载远程共享目录,并验证所有节点是否已共享成功。

 

未经允许不得转载:DOIT » 搭建CPU+GPU 集群