这三款超高性能图像加速产品与你的生活息息相关-中关村在线

这三款超高性能图像加速产品与你的生活息息相关

2019-10-18

近日，在赛灵思开发者大会上发布了ThunderImage三款超高性能图像加速产品：全球最快的JPEG2JPEG缩略图方案、超高性能的JPEG2WEBP转码方案及世界级超高密度算力的JPEG2JPEG缩略图方案。

全球最快的JPEG2JPEG缩略图方案：每秒处理4900张，峰值吞吐14Gbps

对数据中心而言，图像和视频处理一直是网络流量的重中之重。随着移动互联网不断演进，海量UGC的不断涌现，数据中心运营者无论在运营支出还是资本支出上，都面临巨大挑战。

该方案主要应用于手机云相册、云存储等领域，可提供高达20倍的算力（相较于CPU方案）。即对于相关业务的服务器集群，采用该方案后，用一台CPU服务器（配置一张AlveoU200加速卡），最高可替换20台同样型号的CPU服务器。完成同样功能和算力的服务器集群可缩减10倍功耗。它的出现大大降低了数据中心的采购成本、运营成本。同时，服务器的服务响应时延可降低到之前的5%，并且可实时配适各种手机终端型号、尺寸，极大地提升客户体验。

由于WebP相较于JPEG格式可节省额外25%—34%的数据空间，为了进一步节省网络流量和数据存储，目前在业界已经广泛、大规模的使用了WebP格式。不过，由于算法复杂度很高，WebP的编解码运算是个沉重的负担。作为超高性能JPEG2WebP转码方案，ThunderImage JPEG2WebP（M4）具有10倍加速比（相较于2U的E5-2680v4）。即用一台2U的E5-2680v4服务器（配置一张AlveoU200加速卡），采用该方案最高可替换10台同样型号CPU的服务器。与此同时服务响应时间缩减9倍，客户体验明显提升。

ThunderImage JPEG2JPEG U50是基于赛灵思Alveo U50加速平台的最新产品。在相同的物理空间下，1张Alveo U200的空间等于2张Alveo U50的占用空间，此方案将提供最高24倍的加速比，即对于相关业务的服务器集群，用一台CPU服务器，采用该方案最高可替换24台同样型号的CPU服务器。而由于Alveo U50的HBM高带宽能力，该方案的响应时延缩短为CPU的4%。从数据来看，对于高算力密度的缩略图生成集群，ThunderImage JPEG2JPEG U50是世界级超高密度算力的解决方案。

根据有关数据和研究结果，自2005年以来，尤其是近几年，摩尔定律逐步加速放缓。而随着移动互联网、大数据、5G应用、物联网、AI应用的飞速发展，数据中心的算力需要也随之而爆发。

数据中心如何在摩尔定律失效的情况下提升算力，从而满足日益暴增的业务处理需要，已经成为其面临的重大挑战。目前业界主流的算力提升方案无外乎以GPU、FPGA和ASIC为核心的异构计算方案。

由于GPU、FPGA和ASIC各自算力特性不同，因而在处理不同的计算类型、计算场景时拥有各自优势。GPU属于冯诺依曼结构，具有高并发、高灵活性的特点，但也存在能耗高、实时性差的缺点。ASIC和FPGA则在能效上略胜一筹，主要因为其体系结构无指令、无需共享内存。ASIC是为了某种特定需求专门定制的芯片，体积小、功耗低、计算性能和效率高，但其算法调整难度极高，适合算法固定、应用规模化的计算场景。

尽管FPGA优势明显，市场空间巨大，但实际应用却有相当高的技术门槛：其一，编程困难，鉴于RTL编程复杂低效，HLS设计又不够成熟，编译时间漫长且调试困难；其二，硬件系统设计复杂，目前异构计算体系复杂需要定制软件栈。因此，行业内通常所认知的FPGA应用的开发周期是以“年”计，还要面临最终产品性能不理想的风险。这都导致很多科技公司对FPGA“望而却步”。

而深维科技作为“后起之秀”，却优雅地解决了这两个难题，在不到一年的时间内，以分别顺序成功推出三款图像加速的颠覆性产品，平均每款产品的研发周期不到3个月。由于核心团队对于FPGA芯片架构和EDA工作机制有着深刻的理解，在开发过程中，首先采用基于C/C++语言开发，一方面可以支持更大规模算法，另一方面提升芯片架构的灵活性，让改动周期缩短；其次，采用自研开发工具，包括FPGA设计工具、调试工具、标准化专用系统设计工具等，保障了产品的性能。

展开全文