训练数据集加速方案

千本樱-夕颜xiyan10

53人浏览 · 2026-03-10 10:21:40

千本樱-夕颜xiyan10 · 2026-03-10 10:21:40 发布

需要加速什么

netdisk 存储受网络印象，频繁的交互会拉低速率
nvme 等本地存储设备顺序读取可稳定 3.5GB/s+，但随机读取仅有 40M/s+
nvme 上大量小文件读取，速率将降至更低 16M/s。

因此参考上面的问题，需要通过以下方式加速

冷热数据转化，数据存储在netdisk上，当使用时拉取到nvme上转化为热数据。
随机读取优化，通过算法将顺序读转化为伪随机读，支持随机读取。
在使用时小文件也保持打包状态，不进行完全展开。
额外可补充缓存机制，使用内存进一步提高速度

具体设计

如下所示

cold data 数据存放在网盘中，当需要使用时将拉取到nvme本地存储上
大量的数据集文件被分割打包为一个个tar包
当顺序读取时将先读取tar包，再从tar包中读取小文件内容（注:读取小文件并不直接解压tar）
随机读取时将通过算法，使用顺序读取支持随机获取数据
可使用额外缓存预加载数据，进一步加速。

注：其中热数据使用部分可参考webdatas

如何用顺序读支持随机读

如下所示

读取时将从数据集的tar包中随机选取一个进行顺序读取。
将会从tar包中直接顺序读取数据，不解压展开数据包。
随着用户的读取不断循环上面步骤
用户应用随机读取数据时将从缓存从随机获取一个数据，并从当前处理的tar包中读取一个数据填充已读取数据的位置。

开源鸿蒙跨平台开发者社区

开源鸿蒙跨平台开发社区汇聚开发者与厂商，共建“一次开发，多端部署”的开源生态，致力于降低跨端开发门槛，推动万物智联创新。

更多推荐

HarmonyOS 6.1 跨端开发进阶：ArkUI-X从“一次开发”到“多端部署”的实战

Web容器（Cordova/WebView）：体验差，性能低，只是网页套壳。自绘引擎（React Native/Flutter）：性能好，但生态割裂，调试困难，包体积大。ArkUI-X（鸿蒙原生跨端）：基于鸿蒙原生渲染引擎，共享核心代码，保留平台特性，是真正的“一次开发，多端部署”。核心价值代码复用率90%+：业务逻辑、UI布局、状态管理完全复用。原生性能：不使用WebView，直接调用Skia渲

开源鸿蒙跨平台开发者社区

HarmonyOS 6.1 开源生态实战：从“自用”到“贡献”的三方库开发

很多开发者写过“工具类”，但那只是“代码片段”。真正的三方库独立性：不依赖具体业务（如电商Demo），可独立编译和运行。通用性：API设计抽象，能适应多种场景（如支付模块支持支付宝、微信、银联）。稳定性：经过充分测试，版本迭代不破坏兼容性。易用性：文档齐全，示例清晰，一键集成。OHPM是OpenHarmony的官方包管理器，类似于npm（Node.js）或Maven（Android）。今天，我们将