当前位置: 首页 > 产品中心

产品中心

产品中心

1 系统需求

二十一世纪IT发展的一个基本趋势就是利用网格技术将各个孤立的计算机工作站、服务器乃至计算机机群组合在一起,形成一虚拟的超级计算机,统一管理、统一调度,从而加速电子设计仿真、机械设计仿真等高性能计算。在不降低产品质量的情况下,提高计算机总的利用率,减少仿真设计时间,缩短研发周期。另一方面,也加强企事业单位对于高性能计算机资源的管理,使高性能计算资源的管理从分散的、孤岛式的管理向统一管理、统一调度的自动化管理转变,提升企事业单位的IT管理水平。

具体功能包括:

Ø单一系统影像,即将各工作站和服务器组合成一体,形成一虚拟超级计算机,简化用户对一组工作站和服务器的使用。

Ø计算资源的统一管理和调度。通过负载均衡软件实现计算服务器和登陆服务器之间的进程提交协商和进程计算分配以及远程透明执行等任务。

Ø加速电子设计仿真应用,如ADS以及Synopsys、Cadence等软件,充分利用高性能计算平台空闲服务器,加速设计防震的处理速度。

Ø加速机械设计仿真应用,如MSC、Fluent等软件,充分利用高性能计算平台空闲服务器,加速机械设计仿真的处理速度。

Ø提供软硬件资源使用的可视化报表,协助系统管理员根据资源运行情况和使用报表查看机群的运行状况,分析潜在的配置问题,从而优化系统配置,提高高性能计算平台的使用率。

Ø提供软硬件资源使用的可视化报表,协助主管领导详细了解计算机资源使用的情况以及各部门、各单位计算机资源应用情况,为计算机资源分配及IT投资提供依据。


2 Platform 集群资源管理软件解决方案

Platform集群资源管理软件解决方案包括Platform LSF HPC、 Platform LSF Report两个个模块:

ØPlatform LSF HPC通过其上的驻留程序将各计算机组合成一体,形成一虚拟计算机。并统一调度、统一管理,实现硬件资源共享以及在其上运行的应用软件资源共享;

ØPlatform LSF Report提供了整个硬件资源、软件资源的运行情况和使用分析。包括这些软硬件资源的运行情况、使用效率,以及各部门、各课题、项目组的使用情况等。


3 方案分析

  3.1单一系统影像

Platform LSF HPC将把所有计算机纳入统一管理,系统管理员可通过任何运行LSF HPC的机器或通过Web监控集群的运行状况,包括所有服务器负载如:内存、CPU利用率等,以及用户作业运行情况,并管理整个集群。

  3.2计算资源的统一管理和调度

 3.2.1统一排队和管理

Platform LSF HPC通过主批处理程序建立相应的用户程序队列管理中心,根据系统负荷情况、用户程序运行所需要的资源需求信息以及系统管理员事先定义的调度算法和策略自动选择排在前面的作业执行。运行在各计算节点的从批处理程序接收来自主批处理程序的运行用户程序请求并启动相应的用户程序运行。

Platform LSF HPC提供节点分组和用户分组的功能,利用这种功能,集群可以划分为多个功能区(节点组),提供不同的服务。同时,Platform LSF HPC可以按用户组来限定用户能够访问的节点组。这样,通过Platform LSF HPC,集群在保持完整性的同时,可以按功能划分为独立的工作区,用户可以彼此独立地在各个工作区运行作业。

Platform LSF HPC提供的分组功能还能够灵活地配置,在不改变集群系统运行的情况下调整分组。

节点分组示意图,将集群划分为两个分组,各自独立地提供服务

 3.2.2多调度策略

Platform LSF HPC提供了多种调度策略,包括:

Ø先来先服务(FIFS)

Ø轮循式调度

Ø公平共享式(Fairshare)调度

Ø抢占式(Preemption)调度。

Ø独占式调度 Exclusive

Ø主机公平调度 HostParation

Ø资源预约调度Resource Reservation

Ø高级处理器预约 Advance Reservation

系统管理员可以根据实际情况选择相应的调度策略,满足科研、生产的需要。下面对公平共享式(Fairshare)调度和抢占式(Preemption)调度作一介绍。

公平共享式调度能规定用户或用户组对计算资源的使用分额,保证计算资源能被公平合理的使用。下图演示了Fairshare的调度策略,研究所EDA设计的两个部门用户被分成A、B两组,对计算资源按 7:3分配,A组的用户User2、User4和User6按 4:2:4 的比例来使用A组的资源,B组的用户User1、User2、User3、User7按 1:1:1:7 的比例来使用B组的资源。

抢占式调度。有效保证作业的优先级,优先级高的作业能抢占优先级低作业的计算资源(CPU、内存、许可证等),从而以最快速度完成。这样,在实际管理中优先级高的项目或用户总能迅速地获得所需要的计算资源。

另外,LSF HPC还提供机器分组用户分组的功能,利用这种功能,机群可以划分为多个功能区(节点组),提供不同的服务。同时, LSF可以按用户组来限定用户能够访问的节点组。这样,通过LSF,机群在保持完整性的同时,可以按功能划分为独立的工作区,用户可以彼此独立地在各个工作区运行作业。例如,可以为各部门分配机器组和用户组,在保证统一管理的情况下,各部门能相对独立地使用计算资源。

3.2.3负载平衡

Platform LSF HPC可以轻易实现如下的负载平衡,以提高资源的利用率:

时间上的负载平衡。为了充分利用晚上和周末的空闲时段,可采用LSF的“队列运行时窗管理”功能,定义一个名为“offtime”队列,将此队列的运行时窗设置为晚上和周末,这意味着offtime队列中的作业只能在晚上和周末运行,在工作时间则处于等待状态,而不消耗计算资源。这样,耗时长、不紧急的作业,就可以推送到下班时间运行,既避免了干扰用户工作时间用机,又提高了机器的利用率。

空间上负载平衡。利用LSF的机器级和队列级的限流功能,很容易实现机器间的负载平衡。系统管理员可以根据系统的作业数和负载水平,设置每个机器的流量限制。LSF将自动关闭达到流量限制的机器,使这些机器不再继续接受作业。其他作业将被LSF分配到空闲的机器上运行。结合LSF的机器筛选机制,研究所机群可实现如下的机器间负载均衡模式:

Ø作业总是首先在性能最高的机器上执行;

Ø当高性能机器达到设定负荷或流量限制后,新的作业被分配到其他闲置的机器上;

Ø当所有机器达到设定负荷或流量限制后,作业将暂停在LSF的队列缓冲中,等待有机器空闲;

这样,保证作业尽可能向高性能机器集中,同时也防止用户往往主观的将大量的作业提交到某几个机器上,致使这些机器过载,系统响应缓慢,过多的任务拥塞在系统中,互相争抢CPU、内存等资源,使系统的计算能力大量浪费在任务切换中,导致系统忙而无效。

空间上的负载平衡,作业尽可能平均分配到集群的所有节点上,

所有节点保持在一个合理地负载水平上。

交互作业和批处理作业间的均衡。为了避免交互作业和批处理作业的冲突,可以使用LSF HPC的独占式调度(Exclusive Scheduling)功能,当一个交互作业在图形工作站上运行时,该机器将被关闭,其他作业将不能再运行于其上,从而保证交互用户在使用上的效率。而没有交互作业时,该图形工作站又可以运行批处理作业。另外,还可以提高交互作业的优先级,通过前面提到的抢占式调度,保证交互作业的优先执行,防止批处理作业占用所有机器,交互作业无法执行的情况。


  3.3 加速ADS等软件的设计仿真处理

Platform 通过与ADS等应用软件厂商紧密合作,使得ADS等应用软件可以充分利用Platform LSF所提供的分布式计算处理能力和空闲的工作站、服务器资源,加速ADS等软件的处理速度,实现设计仿真的并行化。

另一方面,Platform LSF还提供命令行或脚本接口。Platform LSF针对哪些习惯于使用命令行或脚本等批处理方式的用户,提供了命令行或脚本接口。用户可以在自己的程序或脚本中通过LSF的命令来提交synopsys等作业。

 3.4 交互式作业的统一调度和管理

交互式作业由于涉及到鼠标、键盘的交互,具有要求响应时间快、CPU利用率的特点,因此需要与批处理作业分别对待、分别处理。Platform LSF不仅支持批处理作业,还支持交互式作业,可以针对批处理作业和交互式作业的不同,进行不同的处理。


 3.5 软硬件资源运行情况和使用分析

Platform LSF Reports是一套企业级的负载分析工具,它与LSF HPC紧密集成,提供对机群系统全面的负载和运行状况分析报表。利用这些分析报表,企业可以有针对性地调整系统的性能,优化系统的使用,优化项目或人员的管理;从而减少运营和IT基础建设的成本,并为下一步的投资提供决策依据,以实现投资回报最大化。

LSF Reports能以PDF、HTML和CSV(Comma Separated Values)三种格式输出近百种报表,归纳起来有如下几类:

Ø机群总体及各机器的负载分析,如CPU、内存、交换区利用率和内存换页率、磁盘IO等。

Ø机群的运行情况分析,如机群中作业运行情况(等待/运行/结束/失败),并行作业数量,作业等待原因,及按机群、机器、队列统计吞吐量(及每小时/每天等待/运行/完成的作业数)。

Ø商用软件许可证利用率报表以及使用分析。

Ø资源的使用分析,可以按用户、项目、队列和应用程序分类统计分析对CPU、内存、交换区、许可证的使用情况。


 3.6机群的可扩展性及计算节点的兼容性

Platform LSF支持所有的UNIX/Linux平台服务器,包括Solaris,HP-UX,AIX以及基于Linux 2.4,Linux2.6的32/64位平台(包括x86,x86_64,amd64以及IA64),同时可以根据用户的要求实现作业的透明执行。比如,用户可以指定将作业递交到solaris或者linux平台上运行,然后LSF根据系统资源使用情况自动选择solaris或者linux机器运行,作业在执行时就可以根据作业运行的机器相应地设置环境变量确保作业运行的正确性。

另一方面,由于LSF支持所有的UNIX/Linux平台服务器,使用户在平台选择时,可以不受之于某一特定的厂商,兼容不同品牌和不同操作系统的不同服务器(SUN,HP,IBM等)的扩充能力。

 3.7系统的容错性和可靠性

在容错性和可靠性方面 LSF HPC 提供了三种级别的容错:网络级,系统级及作业级。

网络级容错保证了任何服务器(包括Master)的宕机不会影响到系统的运行。集群中只要有一台计算机正常运行,集群服务就可使用,因为该服务能在各计算机之间"浮动";即使整个网络都瘫痪,作业也不会丢失。所有作业事件都记录在指定文件系统中。当第一台机器恢复正常时,集群服务就可恢复并继续运行。

系统级容错保证了当作业运行时,计算机系统发生故障,该作业能被重新调度到其它机器上执行。

作业级容错保证了作业运行时,因为的偶然故障(如磁盘空间不足)引起的作业失败时,作业能自动重新执行。

另外,LSF HPC还提供了更智能的容错性机制—作业级异常管理(Job-Level Exception Management),可以在

Ø作业运行时间太长

Ø作业运行时间太短

Ø作业消耗CPU太少

的情况下,执行预定义的例外操作,提高系统的自我管理能力。


 4 用户案例

 4.1 EDA行业用户列表

作为世界知名的网格软件提供商,经过十多年的不断发展与创新,现在已拥有成熟稳定、世界领先的网格产品、技术和解决方案,并成功的运用于超过2000家国际知名企业,行业涉及电子、航空、汽车、石油、化工、金融、医药、生命科学、电信、教育、航天、航空等重要高科技领域, 客户包括HP, SUN, SGI, EMC, Hitachi, Fujitsu, Intel, AMD, NASA, BMW, GM, Toyota, Airbus, Boening, Pratt&Whitney, JPMorgan, Motorola, AT&T, Nortel, Shell Oil。

 4.2 EDA典型用户分析—AMD公司

Clive Dawso (Manager of Systems Engineering, Computation Products,Group, AMD)说:

“LSF使我们的计算资源利用率达到了90%以上,从而让我们的设计硬件及计算资源利用到了极限。选择Platform作为合作伙伴,使得AMD在不断革新的微处理器工业可以持续不断地推出最先进的产品和服务“。

AMD

Advanced Micro Devices Inc.

Overview

ØDesigns and produces innovative microprocessors, Flash memory devices, and low-power processor solutions  

Challenge

ØHarness the full power of its computing environment to bring high complex chips to market faster

ØSupport transition to a 64-bit computing model

Solution

ØPlatform LSF

Results

ØMore design, simulation and verification faster and in less time

ØBetter utilization of existing resources and an always-available computing environment

ØSmooth transition to 64-bit Linux environment

ØBetter products to market faster and at lower cost

“With our computing resources running at over 90 percent utilization, LSF has allowed us to push our design hardware and computing resources to the limit. With Platform as our technology partner, AMD can continue to deliver the most advanced products and services to the ever evolving microprocessor industry.”

Clive Dawson, Manager of Systems

Engineering, Computation Products

Group, AMD

 5 产品介绍

  5.1 Platform LSF HPC

 Platform LSF /LSF HPC是一套专门针对IC设计领域推出的机群管理系统,支持异构的、分布式Uinx/Linux,Windows计算环境,为用户提供可靠的机群管理、负载共享、复杂的作业管理及调度功能和大规模并行计算的能力。Platform LSF HPC的体系和工作原理如下图所示:

Platform LSF HPC的主要功能有:

1单一系统映象,即Platform LSF HPC将这些异构的UNIX、LINUX、Windows平台系统负荷及资源情况收集到一起,系统管理员或工程师可以从任何一节点全面监控和了解整个机群的资源情况和负荷信息,形成所谓的单一系统映象。

Platform LSF HPC通过驻留在每个服务器节点的负载信息管理员程序周期性的收集各运算节点的负载信息,包括CPU利用率ut、反应CPU忙闲的15分钟、1分钟及15秒平均运行队列r15m/r1m/r15s、反应I/O及内存换页负荷的io/pg、反应用户登录及交互式操作等信息的ls/it、以及操作系统的可用内存、swp和tmp空间等。同时收集每台服务器的CPU个数、操作系统及体系结构内型、CPU速度、最大内存、swp和tmp空间等信息。并将这些信息周期性地汇报给机群主管理节点。机群中的任意节点都可以通过与主节点的通信获得整个系统的运行状态信息,从而可以非常简单地随时了解整个机群的运行情况。

2用户程序透明远程执行。Platform LSF HPC在通过负载信息管理员程序建立机群负载信息中心的基础上,为每一个需要执行的运行程序在机群范围内自动选择一台最好的机器来执行用户的运行程序,以确保每一个任务能在当前最好的机器上运行。同时通过远程执行服务器实现任务的远程透明执行,确保任务在远程机器上能够正确有效运行。

3自动排队调度和管理。负载信息管理员程序及远程执行服务器的共同作用解决了单一机群系统映象及用户程序在机群系统内快速有效执行的问题。然而在现实系统中,往往有众多的用户程序需要同时处理,机群系统可能面临资源不够的问题。如果不分系统负荷情况,只管根据需要选择机器运行,可能导致系统不能正常有效运转。就像高速公路,如果缺乏有效的管理,会导致告诉公路瘫痪一样。Platform LSF HPC通过主批处理程序建立相应的用户程序队列管理中心,根据系统负荷情况、用户程序运行所需要的资源需求信息以及系统管理员事先定义的调度算法和策略自动选择排在前面的作业执行。运行在各计算节点的从批处理程序接收来自主批处理程序的运行用户程序请求并启动相应的用户程序运行。

4多队列调度、多算法支持。调度算法以队列为基础,可以支持多队列调度策略。不同的队列可以根据项目、应用或者资源使用以及可以使用的主机及用户的不同采用不同的调度策略。具体的调度算法包括:

Ø先来先服务FCFS

Ø公平调度及份额控制Fairshare

Ø抢占式调度 Preemption

Ø独占式调度 Exclusive

Ø主机公平调度 HostParation

Ø资源预约调度Resource Reservation

Ø高级处理器预约 Advance Reservation

5支持基于动态资源及负荷的用户运行程序调度和控制。

支持基于主机、用户及队列的动态负荷调度和控制,包括CPU利用率ut、反应CPU忙闲的15分钟、1分钟及15秒平均运行队列长度r15m/r1m/r15s、反应I/O及内存换页负荷的io/pg、反应用户登录及交互式操作等信息的ls/it、以及操作系统的可用内存、swp和tmp空间等的调度/控制(LoadSched/LoadStop)。当系统负荷LoadStop,相应的正在运行的用户程序将被挂起;当LoadSched<系统负荷

6支持多项目管理和调度。适应生产系统需要,提供多项目管理和调度,确保高优先级项目获得足够多的资源,保障生产系统的正常运行。

7支持用户程序运行使用资源的控制和管理。Platform LSF HPC在用户程序运行时,通过进程信息管理员自动收集用户程序运行所使用的系统资源,包括CPU时间、墙上时钟时间、内存大小、swap空间等资源使用信息,并使能相应的资源使用控制策略,确保整个机群系统作业调度管理控制策略体系的正常运行。

8支持外部资源定义。

Platform LSF HPC支持外部资源定义。用户可以根据现场情况,比如需要管理的应用软件许可证或者需要管理的硬件资源如Myrinet的gm_port端口,自定义外部资源,并依此资源为依据进行相应的调度、控制和管理。

9支持基于多场所的、基于应用软件许可证的公平调度。

Platform LSF HPC与 Platform LSF License Scheduler 相结合支持基于多场所的应用软件许可证的公平调度,从而可以将各个场所的应用软件许可证有机地组合在一起,大幅度地提高应用软件许可证的使用。

10支持基于多场所的、基于应用软件许可证的公平调度。

Platform LSF HPC与 Platform LSF License Scheduler 相结合支持基于多场所的应用软件许可证的公平调度,从而可以将各个场所的应用软件许可证有机地组合在一起,大幅度地提高应用软件许可证的使用。

11与系统软件及应用程序集成。

Platform LSF 可以方便与Synopsys、Cadence、Avanti、Mentor Graphics 、Verisity 、Silicon Metrics 、Neolinear 、Nassda 、@HDL 、Agilent 、Analog Design Automation 、Aptix 、Axis Systems, Inc. 、Sequence Design 等应用程序集成。许多著名的商业应用程序都提供支持Platform LSF 的选项等,同时由于Platform LSF 的开放性,可以与更多应用程序集成。

12支持Web访问,简化用户使用和系统管理

LSF HPC 机群管理界面

13支持简单记账。可以纪录每个作业(包括并行作业)的CPU时间和内存使用情况,便于系统资源统计或计费。

14支持系统和资源使用报表的自动生成。

Platform LSF HPC与Platform LSF Reports相结合可以自动生成基于主机的CPU利用率、ut、反应CPU忙闲的15分钟、1分钟及15秒平均运行队列r15m/r1m/r15s、反应I/O及内存换页负荷的io/pg、反应用户登录及交互式操作等信息的ls/it、以及操作系统的可用内存、swp和tmp空间等资源使用报表。

还可以生成基于项目的作业资源使用报表、作业吐量报表、作业等待原因报表以及应用软件许可证使用情况报表等。

系统管理员可以根据报表,结合场所生产实际需要适时地调整、优化系统配置,保障科研生产需要。

部门经理或领导也可以根据报表所提供的数据,及时解决机群资源瓶颈、优化机群软硬件资源配置,并为未来的IT规划提供依据。

15完善的日志机制。Platform LSF HPC作为成熟的商业软件提供了成熟的系统日志机制。其支持的日志级别包括WARNING、LOG_DEBUG、LOG_DEBUG1、LOG_DEBUG2、LOG_DEBUG3等11中日志级别,并提供了LC_TRACE、LC_EXEC、LC_COMM等日志信息类型。从而在系统发生问题时,可以有效地跟踪错误过程,挖掘错误根源,为用户机群系统的稳定可靠运行提供有力保障。

16不仅支持后台程序(批处理程序)的自动调度和管理,还支持交互式应用的自动调度和执行,包括图形方式的交互式应用、伪终端方式以及伪终端方式shell支持的交互式应用。

17支持应用程序的断点迁移。


  5.2 Platform LSF Reports

Platform LSF Reports是一套企业级的负载分析工具,它与LSF紧密集成,提供对机群系统全面的负载和运行状况分析报表。利用这些分析报表,企业可以有针对性地调整系统的性能,优化系统的使用,优化项目或人员的管理;从而减少运营和IT基础建设的成本,并为下一步的投资提供决策依据,以实现投资回报最大化。

Platform LSF Reports的体系和工作原理如下图所示:

LSF Reports能以PDF、HTML和CSV(Comma Separated Values)三种格式输出近百种报表,归纳起来有如下几类:

Ø机群总体及各机器的负载分析,如CPU、内存、交换区利用率和内存换页率、磁盘IO等。

Ø机群的运行情况分析,如机群中作业运行情况(等待/运行/结束/失败),并行作业数量,作业等待原因,及按机群、机器、队列统计吞吐量(及每小时/每天等待/运行/完成的作业数)。

ØEDA、MDA等商用软件许可证利用率报表以及使用分析。

Ø资源的使用分析,可以按用户、项目、队列和应用程序分类统计分析对CPU、内存、交换区、许可证的使用情况。

LSF Reports生成的部分报表

©2015 南京创联智软信息科技有限公司 版权所有 南京网站建设:南京同网