NVIDIA 仿真生态系统开发总监 German Ros Sanchez 访谈 | Open AGI Forum

German Ros Sanchez:仿真生态系统赋能自动驾驶,开启新时代
2025-3-17
作者 | Haper Zhuo采访 | Eric Wang编辑 | He Miao出品 | GOSIM
自动驾驶是机器人技术的大门。
German Ros Sanchez,现任 Embodied AI 基金会执行董事兼 NVIDIA 仿真生态系统开发总监,是机器学习和人工智能领域的杰出人物。他深厚的学术背景、开创性的研究以及不断挑战自我的动力,成就了他非凡的职业生涯。
他六岁时开始使用 BASIC 编程。十岁时,他发现了 Red Hat Linux,这激发了他对开源的热情。开源给了他一种归属感,就像一个家,也成为了他职业生涯的起点。
2017 年,出于对机器人技术的热爱,German 加入丰田研究院,专注于自动驾驶和虚拟现实技术的计算机视觉研究。他组建了传感器仿真团队,率先开发用于自动驾驶系统端到端评估的创新仿真工具。
2018 年,他成为英特尔实验室 3D 视觉项目负责人,领导 3D 场景理解和重建领域的全新解决方案。他的努力成功地培育了一个庞大的开源社区,将Carla Simulator的用户群扩大到20多万,使其成为美国学术界、工业界和政府机构最广泛认可的自动驾驶仿真平台之一。同样地,Open3D的用户数量也增长到超过15万,并被指定为Python社区的重点项目,下载量排名前1%。
2024年,GOSIM很荣幸邀请German Ros Sanchez来华与全球科技专业人士交流,分享他的宝贵经验。在GOSIM CHINA 2024大会上,他发表了两场精彩的演讲:《开源仿真在具身智能时代的作用》和《使用CARLA构建端到端自动驾驶解决方案》。活动结束后,CSDN高级技术编辑Eric Wang在GOSIM Open AGI论坛上对German进行了专访,他分享了自己在开源、计算机视觉和自动驾驶领域的见解。
German Ros Sanchez 的关键要点:
- 自动驾驶是机器人技术的开端。
- 为了使某项技术取得成功,良好的工具至关重要,而仿真生态系统正是其中的关键工具之一。
- 端到端是一项伟大的民主化技术,因为在过去,你需要一个庞大的团队来处理不同的问题:感知、规划、控制。
- 开源技术就像粘合剂,将仿真、系统和其他相关元素结合在一起。
- 许多公司尽管拥有庞大的用户群和活跃的社区,却依然举步维艰,因为他们未能将这些优势转化为可持续的项目开发。这导致了混合模式的兴起,例如免费增值模式或部分开源模式。
- 在某个时刻,项目会超出预期,并拥有自己的生命力——Carla 超越了我们最初的愿景,并且发展到我们无法控制的地步。
以下是完整访谈:
从童年编程到自动驾驶:German 的开源和机器人之旅
Eric Wang:您形容自己是一位坚定的开源倡导者。是什么激发了您对开源的热情?
German Ros Sanchez:开源从我很小的时候就融入了我的生活。我很早就开始接触计算机。我六岁开始用 BASIC 编程,大概十岁、十一岁的时候,一个认识我妈妈的人看到我在用 Windows,就问:“有意思!你在用 Windows。你知道 Linux 吗?” 当时,我根本不知道 Linux 是什么。后来,他给我的电脑装了 Red Hat,取代了 Windows。我一下子就爱上了 Linux。因为它给了我如此强大的功能,我可以用这个发行版做所有事情。我可以编译自己的东西,修改所有东西。从那时起,我就对开源产生了极大的热情。
我开始参加大学的开源论坛。我记得16岁那年,我在大学里给教授和其他人讲授开源相关的课程。正是在那时,我爱上了开源。开源社区非常庞大,感觉就像家一样。我终于找到了一个家,周围都是同样关心开源的人。所以,从那天起,我就对开源充满热情。
Eric Wang:您之前为什么加入东京研究院?
German Ros Sanchez:我对机器人技术有着浓厚的兴趣。2017年,我加入丰田研究院,从事自动驾驶和虚拟现实技术的计算机视觉研究。我组建了一个传感器仿真团队,开发用于自动驾驶系统端到端评估的创新仿真工具。
对我来说,我看到了通往机器人技术的大门就是自动驾驶。自动驾驶技术已经发展得足够成熟,足以对世界产生影响。所以,这也是我进入自动驾驶领域的主要原因之一。
当你进入自动驾驶领域时,你会意识到,要想成功,你需要好的工具。而仿真工具就是其中的关键工具之一。然而,当时缺乏高质量的仿真工具。这就是为什么我们不能把各个部分拼凑起来。我们需要创建一个仿真平台,这样我们才能更好地开发自动驾驶解决方案,而这正是我真正的热情所在。
Eric Wang:鉴于您的博士学位是计算机视觉方向,您是什么时候决定全身心投入自动驾驶作为职业道路的?能解释一下这其中的联系吗?
German Ros Sanchez:从一开始,我的重点就一直是将机器人部署到实际应用中。如果考虑机器人在现实世界中运行所需的步骤,场景理解是首要解决的问题之一。
从一开始,我们的研究重点就是如何将机器人部署到实际应用中。如果考虑让机器人在现实世界中运行需要完成的各种任务,就会发现场景理解是首要任务之一。
开发能够自主导航的机器人需要精确的环境感知,这也是我最初进入计算机视觉领域的原因。我的目标是开发能够使机器人车辆真正感知现实世界、理解正在发生的事情并最终基于这种理解做出决策的技术。这就是为什么我的论文非常关注计算机视觉。
我一直抱着“我想把它应用到自动驾驶和机器人技术”的心态。一旦解决了这个问题,我们就能准备好应对下一个重大挑战了。
Eric Wang:您是什么时候明确这一点的?
German Ros Sanchez:我想大概是在攻读博士学位的中期,我逐渐意识到,最终我的研究方向不仅仅是计算机视觉。对我来说,我的研究方向是自动驾驶、机器人技术和自动驾驶汽车,无论它需要什么。如果重点需要放在计算机视觉上,那就去做吧。如果重点需要放在规划和控制等其他方面,那么让我们一起攻克任何需要解决的问题,以实现自动驾驶。
从零开始到梦想:Carla 的诞生
Eric Wang:您能分享一下 Carla 研发过程中最激动人心的部分吗?
German Ros Sanchez:为了更好地理解 Carla,我们应该回顾一下它诞生之前的技术发展。 2012-2013年左右,深度学习革命席卷而来。许多此前被认为无效的技术得以复兴,尤其是在计算机视觉和模式识别领域。然而,这些技术严重依赖于海量标注数据,而这些数据极其难以获取。
我记得我曾经手动标注了超过一万张像素级别的图像,我实在无法忍受——我无法将整个职业生涯都花在标注数据上。当时,标注服务尚未普及且价格低廉。因此,我们决定重新审视之前的想法,即使用游戏引擎和模拟平台自动生成数据。我们创建了该领域的第一个平台,名为Cynthia。
Cynthia 一炮打响,在学术界取得了巨大的成功。我们甚至将其授权给所有游戏的业界使用。但它当时只专注于感知、训练和感知验证。
后来,有人建议扩展这个平台并将其开源,我的梦想就此实现。这就是 Carla 的由来。
当我们踏上这段旅程时,正如您所说,我们基本上必须从零开始构建。当时,还没有像 Carla 这样的东西,所以我们必须探索前所未有的新想法和技术。在第一年,我们不得不多次重新设计 Carla,才最终确定了一个可行的初始版本。那是一个非常具有挑战性的时期,我们基本上是通过不断犯错来学习正确的方法。
Eric Wang:2016 年,Carla 项目获得了 Vladan Kotem 和英特尔的资助,并正式转型为一个完全开源的模拟器。在开发过程中,您遇到了哪些挑战?又是如何克服的?
German Ros Sanchez:我认为 Vladan 拥有超越时代的远见卓识。他认识到了这个工具的重要性,我们也认同他的愿景。我们说:“好吧,让我们开始吧!”
但我认为我们谁都没料到 Carla 会如此成功,以及社区如此广泛地采用它。所以从我们的角度来看,这的确是一大挑战。 我们创建 Carla 的初衷主要是为了满足自身需求。作为该领域的研究人员,我们需要这个工具。但我们从未料到 Carla 会获得如此多的追随者,并迅速受到业界的欢迎:“嘿!我们想要更多这样的工具!”
所以,这才是最大的挑战,它最终在某个时刻突然爆发,拥有了生命力。我们意识到,这比我们预想的要大得多。 我们开始意识到 Carla 不仅仅是一个短期项目——我们必须持续改进它,因为它正在为行业带来巨大的价值。
随着项目的进展,我们必须考虑如何建立一个非营利组织来支持 Carla 的持续发展。这涉及到如何获得资金来聘请开发人员、吸引社区等等。这才是我们未曾预见到的真正挑战。
Eric Wang:Carla 如何模拟街道驾驶?研究团队是否需要收集街道上行人的行为数据,或者哪些数据能够发挥作用?
German Ros Sanchez:Carla 非常灵活,允许用户选择自己的方法。高保真行为建模对某些用户至关重要,这意味着他们更喜欢基于真实世界数据的模型。这需要我们收集和验证大量的真实世界数据。
对于复杂度要求较低的用户,基于规则的模型是一种选择。Carla 最终会根据不同的需求以及不同用例所需的精度水平来选择模型。凭借我们在自动驾驶模拟方面的丰富经验,Carla 可以支持多层次的模拟需求。
Eric Wang:Omniverse 也在通过模拟生态系统推进自动驾驶的发展。作为 NVIDIA 的 Omniverse 开发总监,您认为其发展面临哪些障碍?这些问题是如何解决的?
German Ros Sanchez:Omniverse 的开发没有任何障碍。它是一个优秀的平台,背后有一支才华横溢的工程师团队。Omniverse 正在逐步发展成为一套 API,用户可以自由地与任何有趣且实用的功能模块集成。
因此,我们正在推出与 Omniverse API 集成的新功能,以便人们可以通过 Omniverse 访问诸如高保真传感器模拟之类的功能。因此,如果您是 Carla 开发者或 Carla 用户,并且想要访问高保真模拟,那么您很快就能直接使用 Omniverse API 来实现。所以,在这方面进展顺利。Eric Wang:开源模拟有哪些尚未出现但未来可能实现的应用?
German Ros Sanchez:我认为模拟的应用非常广泛。在我看来,开源模拟的真正意义在于将世界查询作为一种服务,或者将世界转化为一个计算模型,你可以在其中发起任何你想要的查询。
目前,模拟平台主要处理传感器数据和基础物理。然而,随着技术的进步,它们将能够处理更复杂的任务。我们将能够精确地模拟物理现象、传感器行为以及光和电磁波的传播,最终推动人工智能模型的进步。
我们也在探索模拟技术在太空探索中的应用。例如,我们正在与美国宇航局合作,研究如何开发月球栖息地以及如何创建能够建造这些栖息地的自主系统。模拟技术越先进,其应用范围就越广泛。
最终,我们将能够创建高度逼真的地球和其他行星模拟,从而实现广泛的用例。这将使我们能够将一切转化为计算问题,利用计算能力探索自主月球任务和蛋白质结构分析等领域。
从自动驾驶的道德挑战到智能出行的创新
Eric Wang:作为人工智能技术开发的深度参与者,您如何看待在公共场所部署人工智能机器人所带来的伦理挑战?
German Ros Sanchez:将机器人投入现实世界,可能会发生一些不好的事情。它不像在网络上运行的机器人。因此,安全是我们的首要任务。
我记得我刚加入丰田研究院时,主要关注的是将产品投入生产以及开发新的智能体。我们在这方面取得了重大进展。当时,安全并不被认为是一个关键问题——直到Uber事故发生,我才意识到它的重要性。
有时,即使有安全驾驶员在场,你的新版本堆栈仍然会在车上出现,无法预料的问题。其中一些问题可能是由我亲自推动的修改造成的。想到我的朋友们可能面临风险,我就深感担忧。从那时起,我深刻地意识到安全绝不能被忽视。
因此,我认为公司开发者必须真正将安全放在首位——这才是符合伦理道德的做法。建立严格有效的验证流程至关重要。无论部署何种解决方案,我们都需要监管监督和独立的第三方评估,以确保系统正常运行。安全问题越受重视,整体效果就越好。我们必须保持警惕,因为自动驾驶技术正在蓬勃发展,尤其是在最近特斯拉自动驾驶出租车计划的新闻之后。
Eric Wang:您认为我们什么时候才能在道路上看到自动驾驶出租车或完全自动驾驶汽车?
German Ros Sanchez:今天!比如,我住在加州湾区。Waymo 正在部署机器人出租车。我已经乘坐过很多 Waymo 的车辆在该地区行驶。这很棒!效果很好!我们将继续在不同的城市看到更多这样的车辆。我们称之为 L4,基本上是指在特定地理区域内良好运行的机器人出租车。
这不仅仅是 Waymo 的专利。我们将会看到 Cruise 的这款车,也会看到特斯拉和其他许多厂商的车辆。所以这项技术如今已经存在。
我想问题是,我们什么时候才能看到它无处不在?这需要相当长的时间。原因是开发者非常谨慎——任何失误都可能对公众认知产生深远影响,甚至改变政府对这些技术和公司的看法。一个小小的失误就可能在一夜之间抹去多年的进步。因为每一座新城市,每增加一英里,都需要非常小心。一个错误就可能让一切化为乌有。
Eric Wang:在自动驾驶领域,您认为哪些领域最有前景?每辆车都配备智能互联功能,让车主能够通过智能设备远程管理车辆,这是否可行?
German Ros Sanchez:我对一些新技术充满热情,并且坚信不疑,例如端到端解决方案——一项伟大的民主化技术,它打破了不同技术领域之间的传统壁垒。这使得团队能够完全专注于解决与驾驶相关的问题,而不会受到不必要的干扰。我认为这将使该领域的新人能够超越现有公司。因此,我对这项技术充满热情。
另一项我非常关注的技术是神经渲染。借助这项技术,您可以创建现实世界的虚拟副本,同时显著降低计算开销。随着神经渲染和神经重建技术的不断发展,我们最终将拥有高度逼真的数字孪生——不一定是整个世界的,但至少会覆盖关键区域。用户将能够轻松构建个性化的数字孪生模型,而无需专业知识。
平衡开源、商业模式和政府在技术创新中的角色的艺术
Eric Wang:开源和闭源方法之间的争论经常被讨论。您对此有何看法?
German Ros Sanchez:我对这个话题的看法有些分歧。一方面,我强烈支持开源。然而,作为开源非营利基金会的参与者,我深知开发开源软件的复杂性。正因如此,你必须建立一个可行的商业模式——一个能够将数百万用户转化为资源,支持项目开发者的模式。 许多公司之所以举步维艰,是因为他们无法将庞大用户群体所拥有的吸引力和势头转化为自我维护的能力,从而维护好项目。
因此,我们看到了混合模式的出现,例如免费增值模式,或者说,虽然有源代码可用,但并非完全开源。在这些情况下,商业使用需要支付许可费用。缺乏有效的财务机制,使得开源组织难以蓬勃发展。因此,我们必须探索具有前瞻性的解决方案。理想情况下,更多组织能够认识到支持开源项目的必要性,并为它们的采用和推广提供资金。
Eric Wang:开源技术在推进嵌入式人工智能集成方面扮演着什么角色?
German Ros Sanchez:重要的是要认识到哪些因素能够加速该领域的发展,哪些因素会阻碍其发展。因为我们目前还没有遇到规模化的问题。为什么不呢?我们需要加速,我们需要变得更快,我们需要更快地将产品投入生产。我坚信开源是加速这一领域发展的关键因素,尤其是在模拟领域。开源工具的灵活性使我们能够根据特定需求进行必要的修改。 我认为开源技术是将模拟、系统和其他相互关联的元素紧密结合在一起的关键粘合剂。在创建自主自适应系统时,我们需要可扩展且灵活的工具,而开源解决方案提供了最佳的前进方向之一。
Eric Wang:Gary 建议政府应该支持开源项目。然而,尽管开源项目可能带来巨大的收益,但政府在这方面的投资仍然很少。您对此有何看法?
German Ros Sanchez:这是一个复杂的话题,但我支持 Gary 的观点,即政府应该更多地参与开源项目的创建。作为开源开发者,我们为更广泛的科技社区的进步做出了贡献。初创企业、中型企业、政府以及各种组织都依赖开源解决方案。我们正在推动全球技术进步。与此同时,我们需要找到其他方法来维持开源项目。增加政府支持将是理想的情况。
Eric Wang:您如何在商业目标与技术创新的复杂性之间取得平衡?
German Ros Sanchez:这无疑是一个颇具挑战性的问题。因此,我努力与全球的研究保持密切联系,例如积极与学术界和业界的专业人士交流,试图了解研究领域正在涌现的新技术和新想法。我强调数据驱动的决策,并不断提出疑问:“这行得通吗?”“它能扩展吗?”为了建立坚实的视角,我们必须亲自尝试,或者与进行最可靠实验的人合作。这是我前进的方法:保持紧密的研究联系,收集数据,并做出明智的决策。
当然,有时我们必须对某些技术进行战略性押注,并评估其商业可行性。随着时间的推移,现实将揭示真相。我们必须坚定信念,将想法转化为现实,快速收集反馈,并不断迭代。
Eric Wang:您认为未来几年您将面临哪些个人挑战?
German Ros Sanchez:我确实面临一些挑战。我认为,我们应该思考如何尽快将 Embodied AI 带入现实世界。我们需要解决许多不同的问题。其中一个问题是,如何确保合适的模拟工具和其他类型的工具到位。关键问题之一是如何利用模拟系统开展业务活动。
如果我们不能围绕模拟工具建立合适的商业模式,就很难保持它们的功能性、最新性和行业领先地位。这是我们需要解决的关键问题之一。一个好的商业模式应该在开源和商业方面取得平衡,同时帮助这些工具不断发展。这是我最近关注的主要领域之一。
German Ros 给开发者的建议
Eric Wang:在这个人工智能快速发展的时代,开发者和研究人员如何保持竞争力和创新力?
German Ros Sanchez:事情变得越来越棘手。尤其是在美国,新的法规层出不穷。例如,在加利福尼亚州,AI开发者必须对其用于训练模型的数据进行更严格的监管。现在,AI开发者还要接受类似外部审计的程序,这让事情变得更加复杂。
个人开发者很难跟上行业发展的步伐。我认为行业内发生的一件好事是,一些大公司决定开放他们的基础模型,例如Meta的Llama和Mistral。这种开放性使得社区能够在这些模型的基础上进行开发。然而,格局仍将持续变化。规模较小的开发者将难以跟上步伐,因此政府的支持(例如提供硬件和数据集访问权限)至关重要。
Eric Wang:许多自动驾驶汽车初创公司正在涌现。您能否分享一些见解,帮助研究人员和开发者在通用人工智能时代更好地规划和发展?
German Ros Sanchez:我们生活在一个突破性创新的时代,每天都有新的发展。研究人员和开发人员首先应该关注可用的工具,了解如何将模拟技术集成到他们的工作流程中,并利用它获得竞争优势。掌握这些工具并持续使用模拟来加速进展是我的主要建议。
Eric Wang:感谢您提供这些宝贵的见解以及今天的对话。各位观众,本期开放通用人工智能论坛到此结束。下次再见!