

清华大学张金潇、中山大学董润敏、清华大学深圳外洋商榷生院吴羲勇为本文共同第一作家。清华大学深圳外洋商榷生院付昊桓进修和中山大学东说念主工智能学院副进修董润敏为本文通讯作家。付昊桓进修于 2016 年、2017 年和 2021 年三次赢得外洋高性能计算应用领域最高奖 “戈登・贝尔” 奖。当作厚爱东说念主承担国度当然科学基金委交叉学部了得后生基金形式、科技部要点研发筹备形式等,并于 2025 年获评为 IEEE Fellow。
跟着天下遥感卫星握续动手,地球不雅测数据正在快速增长。多源、多时相、多光谱遥感影像为国土监测、生态评估、灾害预警、兴隆变化商榷等任务提供了遑急数据基础,但也带来了显贵的存储、传输和计算压力。关于长期联接不雅测酿成的天下遥感影像档案,传统压缩要领主要面向像素级冗余摈弃,难以充分行使地表标的在地舆位置、手艺变化和光谱反应上的长期门径。
近日,来自清华大学、中山大学、新加坡国立大学、国度超等计算深圳中心等单元的商榷团队提议面向天下地球不雅测数据的生成式压缩框架 D2AR,并在灵晟超等计算机上完成 Exascale 级考试。

论文:《Transforming the Use of Earth Observation Data: Exascale Training of a Generative Compression Model with Historical Priors for up to 10,000x Data Reduction》
论文地址:https://arxiv.org/abs/2605.08633
用历史先验重构顶点压缩数据
D2AR 的中枢想路是将地球不雅测数据压缩从传统的 “单张图像冗余摈弃” 鞭策到 “历史先验建模与生成式重建”。与平凡视觉图像不同,遥感数据是在多年圭臬上对兼并个地球系统的握续不雅测。地舆位置、季节周期、地表粉饰、城市结构和多光谱反应之间存在长期门径,这些门径不错被大边界生成式模子学习,并用于极低码率条目下的数据还原。
滚球app(中国)官网下载在框架联想上,D2AR 采取 Dual-Decoupled Asymmetric Compression and Reconstruction 想路,将前端压缩与后端重建解耦。前端只保留极一丝关键表征,将多源遥感数据压缩为中间比特流,并映射为终结 token;后端则将终结 token 与地舆位置、不雅测手艺等条目信息注入生成式重建模子,在合资的多光谱潜空间中还原不雅测数据。
这一联想的关键在于,压缩器不再承担完好意思重建任务,而是只厚爱提真金不怕火极低码率下的终结信息。委果的重建才调来后来端生成式模子对天下历史遥感数据的学习。D2AR 基于 EQ-VAE 构建合资潜空间,并合资 Flow Matching 逐步还原遥感影像,使模子约略行使空间、手艺和光谱维度上的历史门径,普及顶点压缩条目下的重建质地和卑劣可用性。

面向地球不雅测的历史先验生成式压缩框架概览。(a)算法联想:将天下历史不雅测档案压缩为具有地舆与手艺条目不休的生成式先验。(b)重建过程:面向卑劣应用,从压缩示意中按需还原不雅测数据。(c)系统联想:基于灵晟 Armv9 CPU 超算完好意思生成式模子的超大边界考试。
面向层级内存与 NUMA 架构的 CPU 超算考试优化
为了考试这一世成式重建模子,商榷团队在灵晟超等计算机上构建了面向大边界遥感生成式模子考试的软件系统。灵晟是中国国产 E 级超等计算机系统,近期在国度超等计算深圳中心国产算力应用对接会暨天下样板点发布会上亮相,其 FP64 精度握续浮点运算性能进步 2EFlops。商榷团队围绕该国产 Armv9 CPU 架构的计算单元、矩阵扩张、档次化内存和高速互连特色,对并行战略、算子内核、通讯后端和动手时革新进行了协同优化,撑握模子在 CPU 超算上高效牢固考试。
在系统优化方面,开云足球世界杯(官方)APP下载团队针对大模子考试中的计算、通讯和内存瓶颈,联想了档次化并行战略与内存遗弃机制,并对关键算子进行面向国产 CPU 矩阵扩张的优化。同期,通过通讯与计算重迭、动手时革新优化和散布式考试软件栈适配,镌汰了大边界考试中的同步恭候和数据搬移支出。单节点实验标明,基于 Armv9 LX2 和 SME 的考试后果仍是达到与单张 NVIDIA A100 GPU 尽头的水平,并显贵优于支握 AMX 的 Intel Xeon 8558P 平台,考证了国产 CPU 架构在大模子考试中的性能后劲。

Intel Xeon 8558P(支握 AMX)、NVIDIA A100(支握 Tensor Core)和 LX2(支握 SME)平台上单层运算各模块的前向和反向蔓延。
更遑急的是,这套优化约略扩张到全机边界。在 20,480 个节点的大边界弱扩张实验中,D2AR-rec-6B 完好意思了 BFloat16 精度下 1.54 EFLOP/s 端到端握续性能和进步 2.16 EFLOP/s 的考试峰值性能 [1],展现出雅致的弱扩张才调。
关于历史先验生成式压缩而言,这种扩张才调不仅意味着考试速率普及,也意味着模子约略纳入更大范围、更长手艺跨度的天下历史不雅测数据,从而学习更完好意思的地球不雅测先验。

系统在三种模子边界下的弱扩张性能。
从顶点压缩走向任务自稳健数据就业
从应用角度看,D2AR 并不是简便减少遥感影像存储体积,而是尝试建立一种新的地球不雅测数据使用形势:将天下历史遥感档案逶迤为可调用的生成式先验,在极低码率下按需还原对科学分析有价值的信息。实验终结标明,D2AR 约略在高达 10000× 的顶点压缩场景下普及重建质地,并在感知质地、结构一致性和 NDVI 等遥感有关目标上取得改良。进一步的卑劣地盘粉饰分类实验也披露,重建数据仍能保留较强的任务效能,领会该要领不仅压缩倍率高,也约略撑握后续分析任务。

不同压缩比下的可视化对等到对应光谱弧线。
这项责任也考证了国产超算在 AI for Science 场景中的系统撑握才调。通过算法、模子和系统软件栈的协同联想,国产 CPU 超算不仅约略撑握传统科学计算任务,也约略承载大边界生成式 AI 考试。关于遥感应用而言,这意味着数据价值不再只取决于 “采得更多、存得更全”,也取决于能否更高效地存储、传输和使用。D2AR 为遥感基础模子、科学数据智能压缩和国产高性能计算生态设立提供了新的履行旅途。
[1] 峰值考试性能按完好意思前向与反向传播的模子计算量偏执在全机考试中的实测推论手艺计算开云足球世界杯官方手机APP下载,包含动手时革新和 kernel launch 等骨子支出;端到端握续性能则进一步计入数据加载、通讯同步和优化器更新等完好意思考试过程支出。