提供存储无感知的数据对象-数据集(Dataset):通过自定义资源对象 (Custom Resource Definition) 实现对不同存储系统的统一抽象定义与管理,支持可观测性和弹性伸缩。
利用分布式缓存技术加速数据集读写:通过扩展 CacheRuntime 对象,自定义并管理分布式数据缓存引擎。目前已原生支持缓存引擎 Alluxio[1] 和 JindoFS[2]。
基于容器调度的智能数据编排:基于 Kubernetes 容器调度和扩缩容能力,实现数据缓存的智能化编排。
数据集与应用协同调度:扩展 Kubernetes 调度器感知数据集缓存信息,就近调度应用,发挥本地读写缓存的性能优势。
标准访问接口:使用 Kubernetes 标准存储接口 Persistent Volume Claim 访问数据集,实现无缝兼容云原生应用。
面向场景的性能调优:针对深度学习、批量数据处理等任务,提供数据集预热、元数据管理优化、小文件 IO 优化、自动弹性伸缩等手段,普遍提升任务运行效率。
相关链接
[1] Alluxio:
https://www.alluxio.io/
[2] JindoFS:
https://github.com/aliyun/alibabacloud-jindofs