Skip to content

数据集类型

支持多种数据格式

RS通用机器人动作数据集在设计之初就充分考虑了数据交换和集成的便捷性,因此支持多种业界常用的数据格式,主要包括HDF5 (Hierarchical Data Format version 5) 和 LeRobot Dataset Format。

  • HDF5作为一种成熟的科学数据存储格式,以其处理大规模、复杂异构数据的能力而闻名,广泛应用于科研和工业领域。

    • 能够高效地存储和管理包括多维数组、表格、图像、文本在内的多种数据类型;
    • 支持元数据和自定义数据结构,使HDF5非常适合存储包含机器人状态、动作指令、传感器读数(如摄像头图像、深度信息)以及任务描述等多模态信息的机器人数据集。
    • HDF5的高性能特性,如优化的数据布局、压缩算法以及对并行I/O的支持,能够有效减少存储空间占用并提高数据读写效率,对于处理GB甚至TB级别的机器人数据至关重要。
  • LeRobot Dataset Format是由Hugging Face推出的,专为机器人学习数据设计的标准化组织方式,旨在简化与PyTorch和Hugging Face生态系统工具的集成。

    • 其核心思想是将数据集存储为Parquet文件(用于轨迹信息,如机器人状态和动作)和MP4视频文件(用于摄像头观测)的组合,并辅以JSON等元数据文件来描述数据集的结构、内容、统计信息和任务定义。
    • Parquet文件以其列式存储和高效的压缩特性,非常适合存储结构化的时间序列数据,例如机器人的关节角度、末端执行器位姿、执行的动作等。
    • MP4视频格式则能有效地压缩图像数据,节省存储空间,同时保持较好的图像质量。

除了HDF5和LeRobot Dataset Format,考虑到实际应用中可能存在的多样化需求,RS通用机器人动作数据集也具备向其他格式转换的潜力。

数据转换与集成

为了确保ORion通用机器人动作数据集能够被广泛利用并与各种机器人学习框架、数据分析工具以及仿真平台顺畅集成,数据转换与集成机制是至关重要的。
数据集的核心数据,包括机器人的状态(如关节角度、末端执行器位姿、传感器读数)、执行的动作、任务描述以及多模态信息(如图像、深度图),在采集和初步处理后,会以一种或多种标准格式进行存储,同时可按数据需求进行不同数据格式间的转换。从而,最大限度地降低用户在不同工具和框架间迁移和集成数据的难度,从而加速机器人学习和相关领域的研究与应用。