中关村在线

云计算

成就探路者的故事——在云端让每一个创新都触手可及

每一年的re:Invent大会都被视为云计算领域的“朝圣之旅”,人们不仅能在此看到亚马逊云科技推出的新产品和新技术,领略全球各行各业的数字化实践,更能窥见未来的科技发展趋势。“2021年re:Invent的一个关键词就是‘探路者’,亚马逊云科技作为云计算行业的探路者,我们一直都在探索和创新。”亚马逊云科技大中华区产品部总经理顾凡说。在re:Invent期间,顾凡的团队结合亚马逊云科技在大会上的重点发布梳理了“五大风向标”,分别是重构云计算底座,自研芯片再升级;大云无疆,无限拓展;代码即云,万物皆API;降低门槛,云计算普惠;可持续发展。

亚马逊云科技大中华区产品部总经理顾凡

Amazon EC2已经走过15年的时间,为不同行业、不同场景的客户提供了多元化的服务,包括为SAP提供超过24TB的内存实例、为媒体行业的内容打包/创作/转码提供VT1、为arm架构的M1芯片提供实例等等。不过随着实例类型的多样化不断深入,使得供应商开始思考如何从底层的芯片研发来推动创新,这也是重塑云计算市场游戏规则的重要一环。此前,亚马逊云科技已拥有Nitro、Graviton、AI/ML(Inferentia等)芯片三条自研的产品线,可以满足各种各样的工作负载,并提供更优的性价比,像Graviton支持的管理服务已有包括数据库、数据分析、无服务器、容器在内的超过20种。

在今年的re:Invent上,亚马逊云科技推出了四个基于Graviton2的新实例,并发布Amazon Graviton3,较Graviton2可以为科学计算、机器学习和媒体编码工作负载提供两倍的浮点运算性能,为加密工作负载速度提升两倍,为机器学习工作负载提供三倍的性能。能效方面,Amazon Graviton3在相同性能下,与同类型Amazon EC2实例对比,可节省60%的能源消耗。新的C7g实例由Amazon Graviton3处理器支持,与由Amazon Graviton2处理器支持的C6g 实例相比,性能提高25%,也是云上首个支持DDR5的计算实例。

亚马逊云科技大中华区产品部计算与存储总监周舸介绍称,Graviton3的晶体管数量达到500亿的量级,比Graviton2增加了200亿个,但要想加强CPU性能,单靠提升频率或增加内核数量都不是完美的办法,像频率增长往往会以牺牲功耗为代价。亚马逊云科技给出的方案是增加内核宽度,利用指令并行的方式让内核在同一个时钟周期内能够执行更多的指令、完成更多的任务、快速处理更多的数据。由此,Nginx和Groovy的性能提升了60%左右,Redshift性能提升超过25%,x264、265的解码性能提升50%左右,加解密的AES-256性能提升61%。

亚马逊云科技大中华区产品部计算与存储总监周舸

在内核层面,考虑到大数据、微服务、HPC等类型的应用对内存带宽和延时的敏感度要求较高,亚马逊云科技并没有选择增加核心数,而是进一步优化了内存,使得内存带宽提升50%,让不少客户收效显著。例如,Twitter在大幅提升系统性能的同时,将延迟降低了35%,F1车企使用C7g实例做流体仿真的性能提升了40%,支持BFloat16的C7g比Graviton2的推理性能提高四倍。除此之外,Graviton的应用也深入到了SAP HANA Cloud等企业级的关键业务场景中。

在机器学习领域,从P3、P3dn到P4d、Trn1,每年的机器学习专用芯片的性能都在翻倍提升,然而与之相伴的模型规模和复杂度却呈现数十倍的增长,因此仅凭芯片自身的加速远远不够,还需要解决内存和网络的问题。从P3dn到Trn1,内存增加至512G,Trn1、Trn1n的网络也已支持800G、1600G。对于通常要训练两周的GPT-3模型,用P3dn训练需求600个实例,而用Trn1n训练只需要96个实例,可以大幅降低成本。同时,受到网络条件的制约,P3dn在训练时会将49%的开销用在实例之间的通讯上,Trn1n在这方面的开销仅为7%。这样一来,就可以使用更大的集群和训练卡一同进行训练,大幅缩短了训练时间,像P4d最多可以用4000个卡同时训练, Trn1n则是1万个。

“我们不止是在提升这些专用芯片本身的能力,我们也在构建更适合这些芯片发挥的网络环境和配套的所有服务,真正让机器学习的训练能力得到大幅提升。目前,每天有超过6000万个新的Amazon EC2实例被启动,这是2019年的两倍。”周舸表示。

第一个硬盘可以溯源到1956年。早期的硬盘是机械设备,有转轴和盘片通过机械臂将磁头置于磁道会读取硬盘上相应的扇区;但这样有着效率和出错率的问题,直到后来推出SSD的设计。Amazon S3是亚马逊云科技最早发布的存储服务之一,上面已经有超过数万亿个对象。在云上同时运转的成千上万的计算离不开Nitro系统,用它来驱动云计算和确保云计算的安全。每个Amazon EC2都有一个Nitro控制器,一是可以用其满足每个客户的工作负载性能需求,二是通过Nitro Enclave能提供更安全的能力,三是Nitro能把任何一个服务器变成Amazon EC2实例。

在亚马逊云科技的平台上,部署了超过50万个Nitro SSD,服务于数百万的客户。此次,亚马逊云科技推出了全新的Amazon Nitro SSD固态硬盘控制器,使得最新一代IO优化的Amzon EC2实例I-FORECE的平均IO性能延迟降低60%,降低长尾延迟75%以上。Nitro SSD可以对于不同实例进行硬盘虚拟化、多供型号SSD统一管理,为用户提供统一的存储服务体验并提供更强的性能。Nitro SSD可以为新的I4i实例系列供电,不仅仅支撑实例,还有io2 Block Express,使用Nitro SSD构建Amazon EBS io2 Block Express可以提供云上高性能的存储类型,还可以提供256K的IOPS值,满足一致性和超低延迟需求。

此外,亚马逊云科技在全球所有Region推出了全新的Amazon S3 Glacier即时检索存储类(Amazon S3 Glacier Instant Retrieval),能够以极低存储成本实现毫秒级数据检索。如果每季度访问一次数据,且需要数据能立即取回,与Amazon S3 Standard-Infrequent Access存储类相比,Amazon S3 Glacier即时检索可以节省68%的存储成本。借助Amazon S3 Intelligent-Tiering归档即时访问套餐,可使得存储成本可节省68%。Amazon S3 Intelligent-Tiering 存储类现在已自动包括新的归档即时访问层,对于需要毫秒级检索和高吞吐量性能的很少访问的数据。客户可以将Amazon S3 Intelligent-Tiering用作任何工作负载(尤其是数据湖、数据分析、新应用程序和用户生成的内容)的默认存储类。

Amazon FSx for OpenZFS是Amazon FSx文件存储服务系列的最新成员,提供功能齐全且高性能的文件存储。借助Amazon FSx for OpenZFS,客户可以在亚马逊云科技上启动、运行和扩展完全托管的文件系统,这些系统可以替换本地运行的ZFS或基于Linux的服务器,有助于提供更高的敏捷性和降低成本。利用新一代 Amazon FSx for Lustre文件系统,基于Amazon Graviton处理器的新一代Amazon FSx for Lustre文件系统,每TB吞吐量最高相比上一代可提高5倍(每TB达到1GB/秒)。同时,其支持具有多个网络接口的客户端实例,客户可以在Amazon EC2实例(如P4d和DL1)上驱动400 Gbps的网络带宽。与上一代文件系统相比,新一代FSx for Lustre文件系统可将客户的吞吐量成本降低60%。全新推出的 Amazon EBS 快照归档存储层(Amazon EBS Snapshoots Archive Tier),可使客户将很少使用但需要长期保存的Amazon EBS快照存储在这个新的存储层级,实现75%的成本节省。

所有的这些云服务,亚马逊云科技都能通过遍布全球六大洲的25个区域、81个可用区,以及9个新的服务区和30个本地区域,传递到客户的应用场景中。例如,Wavelength通过将服务引入5G网络边缘,最大限度地减少从移动设备连接到应用程序的延迟。借助Wavelength,开发者可以将其应用程序部署到Wavelength区(在5G网络边缘的电信运营商数据中心内嵌入了亚马逊云科技计算和存储服务的基础设施部署)。应用程序流量只需从设备传输到移动通信基站,到城域聚合点运行的Wavelength区。这消除了区域聚合点之间、以及互联网上的多个跳转导致的延迟,使客户能够充分利用5G网络。Wavelength还将在全球多个5G网络中提供一致的开发者体验,让开发者使用他们已经使用熟悉的亚马逊云科技服务、API和工具,构建新一代超低延迟应用程序。

如果客户希望把云能力放在自己的数据中心,Outposts无疑是个好选择。借助1U和2U的机型,即使是很小的部署环境也能借助Outposts获得完整的云能力。为了让客户在任意环境中获得云服务,亚马逊云科技构建了最大规模的专用网络之一,利用Cloud WAN服务,客户可以打造软件定义网络,让网络分层、QoS等功能在统一的中央控制面板上得到管理和控制,在世界任何角落都可随时接入,并且整合了丰富的SD WAN服务。面向物联网市场,亚马逊云科技提供了IoT Code、FreeRTOS、Greengrass、Panorame、Monitron、Snowball等工具,可以帮助客户存储数据、连接数据、迁移数据、处理数据,并从中获得数据洞察。

未来,亚马逊云科技还将利用Ground Station拓展服务的边界。Capella Space已经向太空发射了五颗高精度卫星,采用亚马逊云科技的卫星地面站和云服务进行集成,客户通过API接入即可获得毫米级精度的卫星图像服务。利用这些图像数据,科学家可以对气候变化、潜在灾难等做出更好的预测。

从诞生之初,亚马逊云科技的每一项云服务、每一个功能都代表着一个API,通过这些持续更新和迭代的API构筑了坚实的基础设施,亚马逊云科技认为,API要具有高度的向后兼容性,不能改变现有的架构和特性,让开发者可以无缝适配,并且要根植于客户的业务场景,解决实际痛点,API的故障要有据可查,便于开发者对其持续改进。同时,要创建明确、有目的性、自描述的API,让开发者可以更便捷的利用其设计功能。此外,要屏蔽底层复杂的基础架构,让客户聚焦于业务需求,而不是技术挑战。为了让开发者能够使用自己擅长的语言进行开发,亚马逊云科技还提供了丰富的SDK。

“我们会持续不断地为开发者、云计算先行者们带来更便捷的体验,让他们自由的构建和发挥创造力。”亚马逊云科技大中华区产品部数据类产品高级经理王晓野表示,“今天的‘探路者’已经不仅仅是这些开发者,我们发现越来越多的企业从初创公司发展到大型跨国企业,越来越多的企业加入到用云进行创新的队伍中。这些探路者对云提出了新的要求,我们也试着不断地为各种角色的人降低门槛。对于开发人员来说,我们持续提供能够让其轻松构建应用程序的能力,对于运维人员来说,我们提供能够帮助消除差异、繁琐工作的能力,对于业务人员来说,我们希望他们能够从数据中实现洞察。对于各个行业的用户,我们都希望能够助力他们完成转型,赋能业务创新。”

亚马逊云科技大中华区产品部数据类产品高级经理王晓野

为了降低技术门槛,亚马逊云科技推出了一系列产品。例如,App Runner可以对底层的Fargate、ALB、Route 53等服务进行封装,满足开发者以容器化部署应用和云原生自由扩展的需求,能够通过代码或容器镜像快速大规模的实现;Amplify封装了Amazon DynamoDB、Amazon Cognito的能力,便于那些对后端服务逻辑没有开发概念或技能的人进行开发,Amazon Amplify Studio则允许前端的开发人员以低代码的方式在手机端、web端实现端到端的业务逻辑创建能力;对于更复杂的现代化应用,亚马逊云科技会通过CDK的方式让开发者使用简短的代码就能构建复杂的应用基础架构,并且实现Lambda或ECS容器的热插拔,开发者可以通过Construct Hub找到基于CDK的构造库。

面向AI/ML领域,亚马逊云科技在基础层为机器学习专家提供了丰富的算力和经过优化的深度学习框架,对Tensorflow、MXNet等框架进行了兼容性优化,提升了训练速度、降低了推理延迟。在中间层降低了创建机器学习平台的门槛,通过Amazon SageMaker提供了从数据标记、数据处理、特征存储、算法探索、模型推理到业务上线,以及边缘设备管理等全流程的能力,包括阿斯利康、现代集团、汤森路透等机构在内的全球数万家客户每天都会在Amazon SageMaker平台上进行模型训练,有些模型甚至包括数十亿参数,这些模型在Amazon SageMaker平台上每月要进行数千亿次的推理。在上层,亚马逊云科技提供了开箱即用的AI服务,包括机器视觉、语音识别、文档管理、机器翻译、自然语言处理等等,这些能力横向具有丰富的API,便于开发者集成所需的个性化推荐、企业级搜索、欺诈检测等服务,纵向则会深入到行业应用中,提供如制造行业的预测性维护、医疗行业的保单OCR、诊断分析等服务。

众所周知,数据是机器学习的燃料。从数据准备角度来看,Amazon SageMaker Ground Truth为NFL等客户提供了预构建的工作流程、模板和多种劳动力选择,Amazon SageMaker Ground Truth Plus,则让用户无需编写任何代码即可快速交付高质量的训练数据集。从模型构建与算法编写环节来看,Amazon SageMaker Studio Notebook允许用户访问广泛的数据源,并在一个笔记本中执行数据工程、分析和ML工作流。训练与调优,模型部署与管理都涉及到了基础设施层面的创新。

Amazon SageMaker还在平台上推出了三项新功能,帮助企业在扩展机器学习能力时更加容易,包括Training Compiler模型训练编译器,可将模型培训速度提高50%;Inference Recommender模型推理推荐程序,可将部署时间从数周减少到数小时;Serverless Inference 无服务器推理,通过按使用付费的定价降低拥有成本。

除此之外,亚马逊云科技希望能够提供警报以修复数据性能问题,帮助大规模识别性能和运营问题。为此,其发布了基于机器学习的Amazon DevOps Guru for RDS,能在几分钟内自动检测、诊断和解决难以发现的数据库相关性能问题。Amazon RDS Custom支持SQL Server通过托管式服务节省时间的优势,实现自动化版本维护与补丁升级,将宝贵的资源专注于更重要的业务。借助Amazon Redshift serverless和Amazon QuickSight Q,开发者可以获得实时反馈和数据,从而毫不拖延地扩大服务规模。

对于机器学习领域的学生群体和爱好者,亚马逊云科技同样有所助力。亚马逊云科技大中华区机器学习产品高级经理张洋介绍称,借助Amazon SageMaker Studio Lab,用户只需邮箱就能注册使用内置Tensorflow等框架的多种研发工具,获得12小时CPU和4小时GPU的资源支持,将分析结果一键部署至生产环境。亚马逊云科技还编纂了《动手学机器学习》课程,供用户交流学习。到2025年,亚马逊云科技通过免费的云计算培训,将帮助全球2900万人提高技术能力。

亚马逊云科技大中华区机器学习产品高级经理张洋

云技术的普惠只是亚马逊云科技承担社会责任的一部分。在re:Invent上,该公司推出了多项举措推进可持续发展,包括安全责任共担模型、碳排放追踪工具、可再生能源项目等等。451 Research公布的一项数据显示,如果一家公司把企业级的工作负载从本地数据中心迁移到亚马逊云科技的云平台上,那么这个工作负载的碳足迹排放平均可以降低88%。在可持续发展的安全责任共担模型中,亚马逊云科技承担了基础设施、自研芯片、可再生能源等云自身相关的责任,客户则要更关注应用的可持续发展,如代码效率、应用架构、数据存储等,如果选择了事件驱动型的应用架构,就意味着可以采用无服务器技术,相当于把一部分可持续发展的责任从客户端转移到了云厂商,后者会借助弹性伸缩等技术能力,帮助客户获得最佳的资源利用率,降低能耗。

借助碳足迹排放工具,用户可以计算其工作负载运行在亚马逊云科技的云上产生了多少碳排放量,并且还会获悉随着亚马逊云科技的可再生能源项目上线,工作负载进一步减少的碳排放量。“Architecture”是亚马逊云科技内部的一个概念,提醒着人们在使用技术赋能时也要注意能耗的影响。亚马逊云科技的架构师会把可持续发展相关的思维模式、最佳实践汇总起来,引导更大规模的客户在开发应用时应该注意哪些问题。2019年,亚马逊与Global Optimism共同公布了气候宣言,承诺要快速采取行动,力争在2040年前实现0碳排放,这一组织的成员已经超过200家。

在顾凡看来,提升云基础设施的利用效率,以及采用更多的可再生能源支持业务和运营是云计算企业实现可持续发展的两个关键方向。首先,亚马逊云科技始终专注于基础设施各方面的效率提升,例如Graviton是其最节能的处理器,每瓦性能比其他Amazon EC2处理器的表现好很多,Inferentia是最节能的针对机器学习推理的处理器,Inf1比基于GPU实例推理的能效提升80%。随着AI/ML相关的工作负载在数据中心内占据的比例日益增长,减少相关的能耗已是大势所趋。

其次,亚马逊承诺在2030年会使用100%的可再生能源,这一目标甚至会提前五年完成。在今年的re:Invent期间,亚马逊云科技公布了18个新的可再生能源项目落地,包括南非卡拉哈里沙漠的太阳能项目、欧洲的海上风电项目等。2020年,亚马逊已成为全球最大的可再生能源的企业采购商。截至目前,亚马逊启用了超过1.2万兆瓦的可再生能源,这些可再生能源项目投入运营后,预计每年会减少1370万吨碳排放,相当于300万辆汽车一年的碳排放量。

“我们希望亚马逊云科技的所有新服务和创新,能够帮助云上的客户和合作伙伴,在他们所在的领域都可以成为不断开拓向前的探路者。”顾凡说。

展开全文
人赞过该文
内容纠错

相关电商优惠

评论

更多评论
还没有人评论~ 快来抢沙发吧~

读过此文的还读过

点击加载更多
说点什么吧~ 0

发评论,赚金豆

收藏 0 分享
首页查报价问答论坛下载手机笔记本游戏硬件数码影音家用电器办公打印 更多

更多频道

频道导航
辅助工具