机密计算: HCC 细节

Hopper 100 是NVIDIA推出的具备机密计算功能的GPGPU，支持单卡的CC模式和多卡基于NVLINK互联的CC模式。

HCC方案需要支持可信扩展的CPU。这些CPU可以满足对设备的访问控制检查、分页控制、地址转换和内存加密技术，从而加强对计算设备数据的保护

HCC

概览

HCC TEE方案包括：

HCC对计算性能有部分影响：

以下性能受到额外的加密和解密开销的影响：

CPU Memory:

GPU Memory:

系统内存划分

Cuda 运行

当 Hopper GPU 以机密模式启动时，它会阻止 GPU 内存的计算保护区 (CPR) 的进出

机密计算中的数据保护

通过这种方式，内存的计算保护区是安全的，以便 GPU 可以在其高带宽内存中全速处理数据。当 CC=On 时，所有 GPU 性能计数器都被禁用，以防止侧信道攻击

启用CC模式

GPU Boot

租户初始化

初始化

VM 和 NVIDIA 驱动程序退出后，GPU 将被锁定，直到下次重置。在 CC 模式下，驱动程序以持久模式运行，因为每次 GPU 启动只允许加载一个驱动程序。GPU 的清理在下次启动时完成，并按照之前的步骤 2、3、4 进行操作

请注意，PCIE BAR 完全被阻止，直到 GPU 清理完成，与 CC 模式无关

卸载GPU

当 GPU 以机密模式启动且驱动程序正在加载时，会生成 GPU 证明报告。VM 内的用户可以随时请求 GPU 证明报告
- 某些测量是静态的；其他是动态的，可以在启动后发生变化
用户可以通过多种方式请求 GPU 证明报告：
- NVIDIA 验证程序、NVIDIA-SMI、NVML API
NVIDIA 验证程序代表用户执行多项任务：
- 从驱动程序获取 GPU 设备证书，该证书从 EEPROM 中的 IK Public 构建
- 通过 NVIDIA OCSP 服务验证 GPU 证书链
- 从 GPU 请求证明报告并根据 GPU 证书链对其进行身份验证
- 并将其与预期的“Golden RIM”结果进行比较，以生成正确 CC 配置的通过/失败报告
GPU 证明遵守可信计算组 RIM 的黄金测量规范
- RIM = 参考完整性清单

测量组	细节
静态硬件配置	在制造过程中配置的状态定义了设备的个性和身份	负责安全设置的保险丝，例如调试启用、微代码撤销、CC 启用/功能
固件/VBIOS	软件组件闪存至 EEPROM	● 从 VBIOS 加载的所有固件的签名及其执行环境 ● 设备初始化数据表
驱动程序微码	从驱动程序包加载的微代码	安全区域等引擎的微代码签名和执行环境
硬件初始化状态	● 初始化由 VBIOS 和物理功能驱动程序在启动期间完成，主要由安全区域完成 ● 建立和维护 GPU TEE 所需的配置	启动时初始化，如 PCI-E 防火墙、调试接口状态等
运行时状态	● 运行时由可信 GPU 软件配置的硬件状态 ● 根据 CC 配置编程的硬件和软件状态	● CC policies（例如，生产与开发） ● 硬件引擎的安全/不安全模式 ● TEE 之间的资源隔离
动态状态	由驱动程序或其他软件编程的软件引擎状态
报告信息	签名的纯文本元数据用于协助认证报告验证	● CC VM 配置，如安全内存大小 ● 设备配置，如 SKU 类型、MIG 状态 ● SW 版本（驱动程序版本、VBIOS 版本） ● 事件日志