声振论坛

 找回密码
 我要加入

QQ登录

只需一步,快速开始

查看: 2983|回复: 3

[基础理论] 应用:网格的翅膀

[复制链接]
发表于 2005-7-27 21:38 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?我要加入

x
任何最新的技术,只有当它与具体的应用相结合时,才有生命力。就像计算机只是工具一样,任何一种IT或通信技术也只是工具。人们需要利用工具来解决问题,反过来这些工具也通过应用而得到磨练,最终在羽翼丰满之后走向成熟。 <BR><BR>网格应用最早的推动力来自学术界,尤其是涉及高能物理、分子生物、海洋科学、气象分析等需要极强运算能力的高性能计算领域。另一个推动网格应用的动力来自产业界,主要是那些需要很强计算能力的特殊行业,包括生物技术、制药行业等。随着技术的发展与网格概念的延伸,网格系统已不再是一个封闭的、集中于计算的平台,而是一个开放的,集计算、信息、事务处理和服务于一体的分布与协同的综合平台。与此相对应,其应用领域也不断拓宽。 <BR><BR>根据网格所管理的资源类型,网格通常可以分为计算网格、数据网格、设备网格与应用网格,其中应用网格从实现技术上来说需要借助于计算网格、数据网格等。如果再将它们细分层次的话,可以说应用网格位于其他网格之上。在这四大类网格中,可根据实际应用更有针对性地将网格应用分为分布式高性能计算、海量信息处理与服务、分布式交互协同、信息获取与融合、Peer to Peer应用、商业应用网格等。 <BR><BR>分布式高性能计算:适用通信量少的并行任务 <BR><BR>分布式高性能计算是指将分布在不同地点的超级计算机用高速网络连接起来,通过网格软件实现有效的组织与管理,形成一个比单台超级计算机强大得多的计算平台。事实上,网格的最初设计目标主要就是满足更大规模的计算需求,Globus正是从这类应用发展起来的。不过此类计算适合于多个并行任务、没有通信或通信很少的应用。在相互间通信量较大的时候,如何利用网格平台来解决将是一个挑战性的课题。 <BR><BR>美国先进计算基础设施同盟PACI(Partnerships for Advanced Computational Infrastructure)是一个从1997年就开始建设的网格平台,它针对高端计算需求,主要为美国学术机构提供高性能计算服务。美国国家科学基金会(NSF)2001年9月宣布的“分布式万亿级设施”的科研项目TeraGrid,是世界上第一个从设计开始就面向网格的广域超级计算平台。TeraGrid将把包含3300多个英特尔安腾处理器的计算机连接在一起。这个巨型计算系统每秒钟可执行超过13.6万亿次运算,并能够存储、存取和共享超过450万亿字节的信息。其主要应用领域为气象、地震、发动机模拟、生物、材料等科学计算和工程模拟应用。美国国家航空和宇宙航行局(NASA)开发的计算网格IPG,目前将其三个研究中心(Ames、Glenn和Langley研究中心)以及其他合作站点的超级计算机、大规模存储设备和大型集群计算机通过高速网络连接在一起,其目标是为宇航研究者提供高性能超级计算环境。于2000年11月开始的为期3年的EUROGRID(欧洲网格计算应用验证平台)其主要目标是建立欧洲网格计算基础框架,开发相应工具以实现用户对高性能计算资源简易、无缝的访问,促进欧洲的科学计算发展。项目中将建立一个连接欧洲各高性能计算节点的网格以供相关应用使用。应用领域集中在生物分子模拟、气象预测、机械工程及高性能计算研究应用。 <BR><BR>此外,数字相对论应用是一个极具代表性的成功的网格高性能计算应用案例,它利用网格求解爱因斯坦相对论方程,并模拟出了天体的运动规律。在2001年超级计算会议上获得了Gordon Bell奖。数字相对论的应用是基于Cactus(仙人掌)平台的。Cactus项目是在德国Max Planck引力物理研究所(即阿尔伯特.爱因斯坦研究所)的带领下,由德国和美国多个研究机构共同完成的。它经过多年积累,虽系统庞大但应用界面简单,因而受到普遍关注。这是一个典型的网格问题:一方面,它需要很大的计算能力。如模拟一大一小两个黑洞的碰撞,其计算量不是单台超级计算机所能完成的,必须借助网格将计算任务分解到多台超级计算机上;另一方面,模拟黑洞是一个系统工程,需要天文学家、物理学家、数学家和计算机专家的共同参与,而网格平台能够使分布在各地的、不同专业背景的研究人员进行紧密协作。黑洞模拟项目基于的网格系统一共使用了4台并行计算机,3台位于美国伊利诺斯州Champaign-Urbana国家超级计算应用中心,分别是拥有128、128和256个CPU的SGI Origin 2000机,另一台是具有1024个CPU的IBM Power-SP,位于加州的圣地亚哥超级计算中心。两地之间使用OC-12专线连接。该项目采用了许多措施来优化整体性能。实验结果表明,优化前,应用程序的整体运行效率只有15%,而优化后的整体效率达到了63%。试验中,还尝试过只使用一台SGI Origin 2000(120个CPU)和IBM Power-SP(1020个CPU),曾创下高达88%的使用效率,这无疑非常惊人。
回复
分享到:

使用道具 举报

 楼主| 发表于 2005-7-27 21:39 | 显示全部楼层
海量信息处理与服务:海量数据传输是瓶颈 <BR><BR>利用网格进行分布式高性能计算大大促进了对网格体系结构、编程环境、大规模可视化等领域的研究。但是,海量信息的处理比高性能计算的需求更多也更新。针对海量信息处理与服务的数据网格主要功能是对海量数据进行存储、传输和处理,并提供远程访问机制。这一领域面临的主要问题是如何解决海量数据的异地存储、异地计算和异地显示。特别在网络状况还不够令人满意的今天,如何解决海量数据的传输问题。 <BR><BR>由美国国家科学基金(NSF)资助的物理网格GriPhyN(Grid Physics Network)是一个由实验物理学家与IT研究人员共同建立的数据网格,其目标是达到千万亿字节规模的数据存储和处理能力。GriPhyN的核心技术平台是PVDG(Petascale Virtual Data Grids),它能为全球的科学家提供一个面向数据处理的计算平台。 <BR><BR>DataGrid则是由欧洲粒子物理研究所(CERN)建设的用于海量数据处理网格项目。CERN由20个成员国提供资金,建有世界上最大的正负电子对撞机LEP(Large Electron-Positron collider)和超级质子同步加速器SPS(Super Proton Synchrotron)。来自全世界80多个国家、500多所大学及研究机构的6500多名科学家(占全球粒子物理学家的一半)在CERN进行各种各样的实验。目前CERN有1800名物理学家正在为下一代加速装置做实验准备。该装置称为大型强子对撞机LHC(Large Hadron Collider),将于2005年投入使用,这将是人类历史上最强大的粒子加速器。未来在LHC上进行实验的单位、人数及产生的数据量也是前所未有的。做个类比,LHC将要产生的数据量,将比目前CERN所有设备产生的数据量的总和还要高出一到两个数量级。 <BR><BR>DataGrid对海量数据的分解过程是这样的:粒子检测器产生的原始数据具有PB/s量级,经过在线系统过滤后,并经具有20万亿次处理能力的离线处理场的处理,最终以大约100MB/s的速率永久写入磁带,这个100MB/s就是DataGrid真正需要处理的数据速率。CERN计算机中心负责将这些数据通过高速网络分配给欧洲、北美、日本等国家和地区的区域中心,这些区域中心再将任务进一步分解,到物理学家的桌面时,数据量只有1MB/s,已经可以很方便地进行处理了。 <BR><BR>此外,DataTAG这个大规模的洲际数据网格试验床一方面提供了瑞士日内瓦到美国芝加哥之间的高性能网络连接(2.5Gbps专用线路),像粒子物理数据网格PPDG(Particle Physics Data Grid)、iVDGL以及GriPhyN都会用到这个线路,因为它是美国连接欧洲的理想选择,另一方面该项目还在集中精力研究数据网格之间的互操作性,包括DataGrid、CrossGrid和上述三个网格。 <BR><BR>分布式交互协同:实现异地合作 <BR><BR>分布式交互协同,是指利用网格技术实现异地用户的交互与合作,完成以前不能完成的工作。典型的应用为贵重仪器共享、远程沉浸、远程医疗。 <BR><BR>分布式仪器系统(Distributed Instrumentation System)是指用网格管理分布在各地的贵重仪器系统,提供远程访问仪器设备的手段,提高仪器的利用率,大大方便用户的使用,网格将分布式仪器系统变成了一个非常易于管理和有弹性的系统。 <BR><BR>XPort项目由美国能源部DOE(Depart of Energy)下一代因特网NGI(Next Generation Internet)试验床计划资助,由印第安那州大学、Argonne国家实验室ANL和劳伦斯市伯克利国家实验室LBL共同完成,它使用的科学仪器是几个高亮度X射线结晶学设备,包括ANL的先进光子源APS(Advanced Photon Source)和LBL的先进光源ALS(Advanced Light Source),以及印第安那州大学的分子结构中心MSC(Molecular Structure Center)。该平台基于NGI和Globus,能提供远程仪器使用规划、仪器操作、数据获取、筛选、分析等功能。一方面XPort大大缩短了研究时间,提高了设备的利用率,使普通的科技工作者能够用上先进的、昂贵的设备;另一方面它提供了一个协同研究的平台,使研究能够以团队的方式开展,为交叉学科研究创造了条件。 <BR><BR>远程沉浸(Tele-immersion)这个术语是在1996年10月由伊利诺斯州大学芝加哥分校的电子可视化实验室EVL(Electronic Visualization Laboratory)最早提出来的。远程沉浸是一种特殊的网络化虚拟现实环境,这个环境可以是对现实或历史的逼真反映,可以是对高性能计算结果或数据库的可视化,也可以是个纯粹虚构的空间。“沉浸”的意思是人可以完全融入其中:既可以随意漫游,又可以相互沟通,还可以与虚拟环境交互,使之发生改变。打个比方,远程沉浸是一部观众可以进入其中的科幻电影。远程沉浸可以广泛应用于交互式科学可视化、教育、训练、艺术、娱乐、工业设计、信息可视化等诸多领域,所要共享的资源就是这个共同的虚拟环境。更值得一提的是,它将“人/机交互”模式扩展成为“人/机/人协作”模式,不仅提供协同环境,还将对数据库的实时访问、数据挖掘、高性能计算等集成了进来,为科技工作者提供了一种崭新的协同研究模式。特殊的远程沉浸环境包括虚拟历史博物馆、协同学习环境、数据可视化协同分析环境等。 <BR><BR>远程医疗经历了一个从简单到复杂、从低质量到高质量、从单一到综合的演化过程。在这个过程中,网格起到了综合各种技术、揉合各种平台、屏蔽各种差异的作用。网格在远程医疗中将扮演这样的角色:管理各种设备、动态调度资源、提供资源预留服务和自适应网络的拥塞、提供海量数据的实时存储和检索服务、在设备和远程存储系统之间提供传输服务、对动态可视化和分析提供支持、支持对远程仪器的控制、促成专业人员之间的协作。有了网格的支持,远程医疗系统就可以建立在宽带Internet之上,而不必租用专用线路,各种资源的利用率以及协作水平也将大幅提高。 <BR>
 楼主| 发表于 2005-7-27 21:39 | 显示全部楼层
信息获取与融合:提炼有用信息是问题 <BR><BR>信息网格就是对广域网上的异构海量信息源进行集成与融合,为用户提供透明方便的信息服务。信息网格研究的中心问题有:如何描述信息、存储信息、发布信息和查找信息;如何充分利用现有网络技术,如HTTP、XML、WSDL、UDDI、SOAP等,构成一个完整的服务链;信息的语义表示,即如何赋予信息以内涵,以及如何避免信息的二义性;如何对信息加密,防止信息泄露等。 <BR><BR>目前这方面技术还不成熟,在广域网上海量异构信息的有效集成与访问还没有更好的方法。特别是如何在海量的信息中提炼出用户所需要的有用信息值得研究。 <BR><BR>由斯坦福大学和圣地亚哥超级计算中心领导的“生物信息学大规模分析系统”项目集成了分布的分子结构数据,如PDB(Protein Data Bank),实现了分布异构数据的处理、分析以及可视化等,其目标是为相关领域的研究人员提供一种有效的数据/信息发现环境。目前,该系统集成的数据包括PDB(Protein Data Bank)、GenBank和分子动力学轨道数据,实现了统一的数据访问及授权机制。该系统还利用分布的网格资源实现了分子扫描和比较算法、生物发育演化算法等,研究人员可以利用该体系感知人类基因,判断不同的基因表示的蛋白质序列,进而分析蛋白质如何控制细胞的运动以及器官的生长。 <BR><BR>由宾夕法利亚大学领导的NDMA(National Digital Mammography Archive)项目对分布的乳腺X射线图像、病历信息以及相关的初步诊断结果提供了统一的传统访问模式。在实现了数据统一访问机制的基础上,NDMA利用分布的海量信息实现计算机辅助诊断,支持相关的教育培训项目以及相关的科学研究。 <BR><BR>美国军方的全球信息网格GIG(Global Information Grid)则主要针对其指挥信息系统的不足。例如战斗机飞行员的攻击任务是在起飞之前数小时制定的,无法在攻击过程中随机应变。美国国防部设想,依靠GIG的帮助,到2010年,卫星、预警机、雷达、情报人员等采集到的所有相关信息经过处理后,将实时反馈到驾驶舱,不仅让飞行员对它的周遭情况了如指掌,还让机群和地面部队、海面舰船的配合天衣无缝。同时,可以将误伤友军或平民目标的情形减少到最低限度。 <BR><BR>GIG的设想最早是以备忘录形式确立,由美国国防部首席信息办公室制定,时间是1999年9月22日。由于GIG要同时支持战争、战斗和日常业务,并同时支持现有平台、未来平台乃至正在发展的平台,因此要想建立一个完善的GIG体系结构非常困难。为了将设计层次化,GIG从两个角度对这个体系结构进行了剖分,一种是把它分成三种互相关联的子体系:联合运作体系、战斗支持/业务区域体系以及通信和计算系统体系;另一种是面向任务将它划分为逻辑关联的三种体系透视图:运作视图、系统视图和技术视图。GIG是一个长远目标,估计美国国防部将为之投入数百亿美元,耗时将长达十年以上。这也从侧面反映出信息集成系统的重要性。 <BR><BR>Peer to Peer应用:21世纪的另一大热点 <BR><BR>Peer to Peer(P2P)被许多人视为21世纪的技术热点之一,它通过系统间的直接交换达成计算机资源与信息的共享,包括信息交换、处理器时钟、缓存磁盘空间等。P2P环境下的资源及任务管理与分配,具有挑战性。 <BR><BR>Napster是一个MP3格式的音乐文件交互系统,它提供了一个集中式的信息服务器,负责用户注册、共享文件信息收集、用户查询的工作,而用户传输文件则在两个Peer所在的机器之间直接进行;Freenet是阿伯丁大学开发的一个P2P系统,系统中每个用户位置均等,既充当服务器又充当客户机,没有中央服务器。每个Peer都知道其邻居的存在,所有的查询都通过向邻居转发进行深度优先搜索;JXTA是Sun Microsystems开发的一个栈结构的P2P规范与API,目的是让开发人员在这些规范与API的基础上,按自己的目的开发P2P系统,从这个意义上说,JXTA是一个通用的P2P生成平台。 <BR><BR>加州伯克利分校的太空科学实验室组织开发的SETI@home项目是第一个通过大规模并行计算完成来自其他宇宙文明社会电波信号的灵敏搜索。检测来自外人类的电波信号看起来好象是一个简单的信号处理任务,但实际上需要巨大的超级计算机才能完成,主要问题在于首先外来信号的参数是不可知的,其次对宇宙智能搜索的灵敏度极大地依赖于可用的处理能力。对外太空智能的研究存在一个假设前提:外太空人类希望通过向太空广播容易检测与容易区别的信号,从而与其他人类建立联系。一种达到这种目标的方法是发送窄频带的信号,通过在一个很窄的频段集中信号能量,从而使得这种信号能从自然界宽频段的噪声源中区分开来。因而,SETI@home主要集中在检测窄频段信号。 <BR><BR>电波频谱每一个极小部分执行计算需要比现在最大的超级计算机还多的计算能力。不过,通过无线电波望远镜获取的信号数据流是一个容易分解的分布式任务,我们能够根据频段对数据进行分块,这些分块在本质上是相互独立的。另外,对太空一个位置的观察得到的结果和另外一个位置得到的结果是相互独立的。这就使得我们把很大的数据集分成大量的小块,每台计算机能够比较快地分析出其中的一块,从而可以把工作分配到自愿贡献空闲CPU周期的机器处理。 <BR><BR>SETI@home项目通过望远镜观察了大部分的可见太空部分,系统需要存储总共39Tb级的大量数据,需要1100盘磁带,每盘磁带存储15.5个小时数据。它当前能对47种不同CPU和操作系统分发客户端软件,客户可以从SETI@home的网站下载客户端软件。对于Windows和Macintosh平台,客户端软件安装后是作为一个屏保程序运行的,只有当该屏保程序是激活的情况下,才能处理数据。对于其他平台,客户端是运行在文本方式下,这些平台的用户基本上是在后台运行该客户端程序。 <BR>
 楼主| 发表于 2005-7-27 21:39 | 显示全部楼层
商业应用网格:实际应用还很少 <BR><BR>网格的应用,从最初的科学研究走到现在,已经逐渐应用于商业应用。2002年年底Butterfly.net公司与IBM联手合作,将网格计算推向游戏业,建立了第一个商业上的游戏网格Butterfly Grid,目标是解决大规模多人游戏的技术挑战。它在全球部署了大量计算和存储资源,能够提供几千到上百万玩家同时在线参与各种游戏,改善游戏者的游戏体验。 <BR><BR>Butterfly.net计划推出一款软件工具包,各家游戏开发商只要在本地开发,所有的运行和管理由Butterfly网格承担。现有的网络游戏站点中,连接到每台服务器的用户是固定的。因此某台服务器一旦出现故障,那么连接到这台服务器上的用户就无法继续玩游戏了。如果使用网格,即使某一部分服务器出现故障,整个也不会受到影响,可以继续提供高质量服务,同时能够自如地应付某些游戏大量的突发性高峰使用。另外,不仅可以使用家用游戏机,还可以利用个人电脑、PDA等终端产品来参加同一种游戏。 <BR><BR>不过,目前来说,真正的商业应用网格还很少。 <BR><BR>观 点:网格应用的四大趋势 <BR><BR>网格应用以行业为先导 <BR><BR>目前国际上所有的应用网格,无一例外地为某一行业或专业建设与服务,这也是网格应用初始阶段的重要特征。由于网格技术还不成熟,没有统一的标准,而对网格技术的需求又十分强烈,因此目前的网格应用形态和用户使用模式都是多种多样,对用户的请求、资源的表示与管理、信息的集成等基本都是依据行业特点构造相应的系统,并试图去解决问题。 <BR><BR>标准化趋势 <BR><BR>网格应用的行业化,对应用网格的构造提出了统一行业标准的需求。与目前关于网格软件标准化的要求类似,行业网格应用也提出了标准化的需求,一方面要求应用开发要遵循现有的一些开放标准与协议,另一方面又要依据行业特点,制定网格应用的一些行业标准。事实上,目前的一些应用网格实例也正试图这样做。 <BR><BR>技术融合趋势 <BR><BR>在OGSA出现之前,已经出现很多种用于分布式计算的技术和产品,但这些产品许多都不兼容,如Legion、Ninf、Globus等,都是各行其道、互不兼容。目前基于XML的Web Services技术在各种异构平台之上构筑了一层通用的、与平台无关的信息和服务交换设施。将Web Services的规范加入OGSA之后,网格的一切对外功能都以网格服务(Grid Services)来体现,并借助一些现成的、与平台无关的技术来实现这些服务的描述、查找、访问、传输等功能。 <BR><BR>另一方面,网格的应用将涉及到众多学科的交叉,需要众多学科的科研工作者相互交流合作、实现技术融合,只有这样,才能构造出易用好用的网格应用系统。  <BR><BR>大型化趋势 <BR><BR>一方面,网格应用在资金上的投入越来越大,用于网络建设、购买设备的资金投入很大,各国政府的投入将逐年递增,IT公司也将投巨资发展网格技术及应用。另一方面,依据网格的发展,从最初的企业网格、合作网格,到最终的公用基础设施,网格最终将作为国家公用设施去建设与运营,为科学研究、国民经济和国防建设提供服务。 <BR>
您需要登录后才可以回帖 登录 | 我要加入

本版积分规则

QQ|小黑屋|Archiver|手机版|联系我们|声振论坛

GMT+8, 2024-11-29 23:54 , Processed in 0.077075 second(s), 17 queries , Gzip On.

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表