世界上大部分 GDP 都存在于物理世界,这为物理 AI 改变了我们的经济创造了巨大的机会。我们创办 Rerun 的论点是计算机视觉和机器人技术即将改变我们周围的世界,但过去两年的进步速度远远超出了我们任何人的想象。
我们很高兴地宣布,Rerun 已经筹集了 1700 万美元的种子资金,用于构建物理 AI 的数据堆栈。本轮融资由 Point Nine 领投,Costanoa、Sunflower Capital、Seedcamp 以及包括 Guillermo Rauch、Eric Jang、Oliver Cameron、Wes McKinney 和 Nicolas Dessaigne 在内的著名天使投资人参与其中。
我们在过去 2 年里构建了最流行的开源框架,用于记录和可视化多模态数据。如今,Meta、Google、Hugging Face 的 LeRobot 和 Unitree 等公司已经在自己的开源工作中采用了它。我们正在通过为 Physical AI 构建新的数据库和云数据平台来继续这项工作,这将帮助团队更快地运行更多实验。
物理 AI 已从棘手变为不可避免
物理 AI,无论是自动驾驶汽车、机器人、无人机还是空间计算,历来都是一个难以构建和投资的类别。要以大众市场价格销售复杂硬件,您需要大批量来证明您的高额前期成本是合理的。与此同时,很难在这些系统中构建足够通用的智能来应对大型市场。
过去几年 AI 的巨大进步改变了这种等式,反而启动了一个难以停止的飞轮。AI 的进步推动了投资,这导致了更多、更好的硬件部署,从而收集了更多的数据。这反过来又进一步推动了 AI 的进步,从而扩大了潜在市场。
机器学习将复杂性从在线数据管道转移到离线数据管道
要交付 Physical AI 产品,您需要两种系统;在线系统,这是机器人在世界中移动时实时运行的内容,以及离线在数据中心运行以用于分析或改进在线系统的系统。
从在线系统记录的数据的可视化。此记录来自 Droid 数据集。
在传统的机器人系统中,智能行为是手写的,大部分复杂性在于在线系统。离线数据系统主要处理对记录数据或模拟的在线代码进行评估和测试。
自 2010 年代中期深度学习开始用于更简单的任务以来,团队一直在稳步用经过训练的模型取代在线系统代码。这一趋势今天仍在继续,越来越多的任务被端到端训练。Tesla 和 Wayve 等公司训练模型,这些模型直接将视频和原始传感器值作为输入和输出气体、制动和转向控制。
机器学习可以从根本上提高系统的能力,但它需要复杂的离线数据管道。您需要收集、管理和整理大型数据集,并弄清楚如何最好地利用这些数据训练模型。模型解决的任务越大、越复杂,离线数据整理就越复杂。例如,团队可能会离线运行更大的模型,这些模型可以 3D 重建完整的机器人环境并自动标记记录。这些标签用于改进模型的训练,然后部署该模型以进行在线推理。
对在线和离线数据使用不同的堆栈会导致摩擦
传统的机器人数据工具,如 RViz 及其后代,是为机器学习之前的时代设计的。它们通过可视化来自在线系统的日志来提供可观测性,但并非为现代物理 AI 的大规模离线数据处理需求而构建。
另一方面,数据湖和湖仓一体架构(例如 Databricks)是为大规模分析和机器学习而构建的,但本身并不理解物理 AI 数据,这些数据通常包含随时间变化的空间关系。想象一下,尝试将多人 3D 游戏的不断发展状态放入一个包含数字和字符串的表中。
从原始在线日志中提取数据以进行进一步的离线处理后,有关数据真正含义的语义信息将丢失。传统的机器人可视化工具不再有效,这意味着研究人员无法了解整个数据管道。语义的丢失还迫使研究人员编写大量翻译代码,以便在每个步骤中重新解释数据。
所有这些复杂性都会损害迭代速度和速度。
快速发展需要快速、可观察、低摩擦的基础设施
要快速提高 AI 功能,最重要的是快速运行高质量的实验。为此,研究人员需要快速、灵活、易于使用且易于修改的数据基础设施。为了产生新的想法并及早发现问题,他们还需要从收集到增强、培训和评估的整个过程中对数据进行可观察性。
研究人员应该能够以一致的方式处理原始日志和清理的训练数据。他们应该能够使用新的嵌入内容轻松增强数据集,或者从训练样本跳转到其来源的记录。他们应该能够直接可视化他们拥有的任何数据,无论它处于哪个处理阶段。他们应该能够使用向量搜索和 SQL 查询来管理数据集,而无需单独的系统。
需要的是跨在线和离线数据的一致数据模型
为了在跨数据生命周期工作时获得低摩擦体验和良好的可观察性,您需要一个始终一致的强大数据模型。物理 AI 数据很复杂;它包括视频流、3D 和其他传感器数据流等内容,所有这些数据都以不同的速率异步变化。
数据模型决定了您如何描述和解释存储的数据。一个好的模型足够灵活,可以轻松地对研究人员关心的场景进行建模,但又足够受限,使做正确的事情变得简单而高效。
使用一致的数据模型,可以构建一个引擎,无需额外步骤即可可视化该模型中的任何数据,从而提供无缝的数据可观测性。Rerun 的开源可视化系统正是以这种方式构建的。在公司的前 2 年里,我们花了几年时间迭代物理 AI 的数据模型,该模型既适用于杂乱的在线日志,也适用于离线管道数据的高效列式存储。
一个好的 Physical AI 数据模型支持的第二件事是将更多特定于领域的作直接移动到数据库层。例如,您可以在数据库查询中执行时间对齐或解析空间变换链,从而大大简化这些类型的数据集的分析和管理。
可视化必须是开源的,因为到处都需要它
可视化之于物理 AI 数据,就像文本之于文本。它需要可用print到处,用于所有形式的数据。
构建自主机器人包括原型算法、训练和评估模型、测试传感器、现场可观察性、QA、模拟、数据注释和管理、调试数据管道等等。在所有这些任务中,可视化可帮助您了解正在发生的事情。这些任务在各种环境中得到解决;从边缘设备到笔记本和脚本,再到云中的大型批处理作业,再到自定义工具和仪表板。
此示例视频显示了研究人员在调整参数时在 Notebook 中可视化训练。
因此,可视化内置于整个代码库的核心工具中。为此,依赖单一的闭源供应商是一个巨大的风险。如果您还希望可视化是低摩擦的、一致的并且可能扩展,那么唯一真正的选择是开源或维护内部实现。
查询引擎需要了解多种存储格式的数据集
在线机器人系统通常使用面向消息的架构,以多种速率生成数据。运动传感器通常以 1000 Hz 的频率发送数据,相机可能以 30 Hz 的频率提供新帧,而高级规划模型可能以 4 Hz 的频率更新。这些类型的未对齐数据集以表格格式存储效率低下。此外,这些系统通常需要进行优化,以便以较低的开销快速将数据写入磁盘。因此,这些日志记录通常以 MCAP、uLog、rrd 或类似的自定义格式存储。
这些格式的共同点是它们不适合高效的大规模存储和处理。离线系统倾向于使用其他(通常是表格)存储格式(如 Parquet 或 Avro)以及二进制文件(如视频)。从未对齐的数据集到结构化表的转换通常是有损的,需要重新采样和插值以对齐数据并使其更易于处理。
为了能够以低摩擦和一致的方式处理在线和离线数据,您需要存储和查询引擎,这些引擎可以读取和理解未对齐的面向消息的数据集以及来自多种存储格式的对齐表格数据集。Rerun 通过将使用 Rerun 数据模型的查询引擎与用于将任意数据源映射到该模型的插件系统相结合来实现这一点。
我们正在为物理 AI 构建缺失的数据堆栈
Rerun 正在为 Physical AI 构建数据堆栈。Rerun 开源项目可帮助您对 Physical AI 数据进行建模、记录和可视化。它将始终保持宽松的许可状态。我们将使用新资金来改进开源项目,并围绕它构建新的数据库和云数据平台。
该数据库是围绕与开源项目相同的数据模型构建的。这意味着它带有内置的可视化功能,可让团队在在线和离线系统上快速观察数据。查询引擎使您能够对原始日志和结构化数据集无缝组合向量搜索和完整数据帧查询,以支持机器人感知型数据科学和数据集管理。
最重要的是,Rerun 可让您更快地试验、迭代和交付 Physical AI 产品。