Data quality determines model performance, just as the environment shapes people — A conversation with Greg Schoeninger, CEO of Oxen.ai

Greg Schoeninger at the interview site of GOSIM AI Paris 2025

Interview with Greg Schoeninger, CEO of Oxen.ai, on data quality and model performance

2025-7-10

gosimopen-sourceAI-engineering

作者 | 王诗棋 何苗
采访 | 王启隆 Eric Wang
出品丨GOSIM 开源创新汇

“当我刚加入公司的时候,领导把 Watson 所有的研究论文都甩在我桌上,问我能不能复现这些成果。我很震惊,真的做得到吗?”

在构建智能系统的路径上,大多数人依赖现成的工具框架,而少数人选择从底层动手,亲自构建语言模型的每一块积木。Greg Schoeninger 属于后者。他在深度学习尚未主流的年代,就用 C++ 编写自己的神经网络库,攻克情感分析、实体抽取、关系建模等任务——彼时 PyTorch 尚未诞生,Transformer 还只是论文中的理论构想。

Greg 对模型训练的理解,不仅来自实验室,更来自十余年穿越技术周期的实战经历。他早期所在的初创团队,正是挑战 IBM Watson 的少数玩家之一。他们在没有超级计算机的条件下,仅凭研究论文,从零复现 Watson 的多个核心组件,最终将产品构建成面向客户的 API ,最终被 IBM 的收购。而今天,他创办的 Oxen.ai 正在重塑 AI 工程协作方式:从数据版本控制到微调工作流,从集中式存储到实时评估接口,帮助开发者高效构建、管理和部署模型。

Greg 的技术哲学简单却深刻:“真正让模型变强的,不是更多参数,而是更好的数据、更细致的评估机制。”他敏锐指出,强化学习的挑战不在算法本身,而在于设计合理的奖励函数,“你得站在模型的角度思考”。而在他眼中,未来 AI 技术的分水岭,将不是闭源与开源的对抗,而是是否能实现高质量、可追踪、协作式的数据飞轮闭环。

在 GOSIM AI Paris 2025 大会的法国巴黎现场,CSDN 资深编辑王启隆与 Greg 深入对话,聚焦于 Greg 对模型开源与专有模型竞争格局的深度洞察、他在 GRPO 强化学习流程中对基础设施效率的极致优化实践,以及对“氛围编程”等趋势如何赋能非技术人群的前瞻思考,试图还原 AI 工程实践背后最本质的挑战。

Image 图|Open AGI Forum 现场对谈实录(左:主持人王启隆,右:嘉宾 Greg Schoeninger)

精 彩 观 点 强化学习最大的难题在于如何构建有效的“价值模型”,让模型无需经历大量的“端到端”试错过程,就能预测下一步的最佳行动。为了解决这个问题,我们必须在数据利用效率和学习方法上实现突破。

我虽然在开发软件和 AI 工具方面经验比较丰富,但在销售、融资甚至与客户沟通方面经验很少,几乎全靠边做边学。第一次融资的时候,在一个投资人说“行”之前,可能要听一百个“不”。

“氛围编程(Vibe Coding)”会让那些有商业头脑却不太擅长编码的人更快地打造产品并推向市场。

只有给模型输入正确的数据,才能让它按照你的期望去理解这个世界。做机器学习久了的人都会明白:数据才是所有突破背后真正的关键。

以下是对话实录:

Image 从挑战 Watson 到创办 Oxen.ai :AI 模型训练高手的十年沉浮

Eric Wang:Greg ,非常感谢你在演讲前抽空接受我们的采访,先简单介绍一下自己?

Greg:大家好,我是 Greg ,Oxen.ai 的创始人兼 CEO ,很高兴能来到巴黎参加这次 GOSIM 大会。我过去 11 年一直专注在人工智能和机器学习领域,从语言模型刚起步的时候就开始训练它们,亲眼观看了 AI 领域的几次重要变革。

Eric Wang:GOSIM 官网上提到,你已经训练模型十多年了,这很令人吃惊。

Greg:是的。我之前在一家初创公司工作,专注于早期的深度学习研究。这个时候我们用 C++ 从零开始写自己的神经网络库,这还是在 TensorFlow 、PyTorch 这些框架出现之前的事。这个时候我们训练卷积神经网络和循环神经网络,用来做情感分析、命名实体抽取、关键词提取和关系抽取这些任务,并通过 API 提供给客户。

在自然语言处理领域的早期阶段,那家公司被 IBM 收购了,整合进了 Watson 部门,那时也正是 IBM 全力推动人工智能发展的阶段。所以算下来,我训练模型确实已经超过十年了。

Eric Wang:听起来你经历过 AI 发展的寒冬时期,那种感觉怎么样?后来又是怎么继续在这个领域走下去的?

Greg:我亲眼目睹了 AI 领域的几次起伏跌宕。当年我们做的一些技术尝试,因为当时算力不够或者数据不足,没能真正实现,现在却被重新捡了起来,终于能够成功落地,这种感觉很有趣。比如 Transformer 技术,当初使用的也是类似于“预测下一个词(Predict the next word)”的思路,但现在有了更大的规模和更高效的数据利用。当年我在 IBM 的时候,我们只能把模型用在特定的场景里,比如翻译或者抽取人物、地点和事物。有了通用模型之后,这些任务一次性就都搞定了,确实很让人惊叹。

Eric Wang:在加入 IBM 之前,你曾经在 API Academy 工作过,它曾以挑战 IBM Watson 这样的巨头而闻名,不过后来也被 IBM 收购了。你曾经写过文章,说这段经历对 Oxen.ai 的创立影响很大,还提出了“人人皆可创建”的理念。回忆当年,作为一个小团队去复现并挑战 Watson ,是什么样的感受呢?

Greg:那时候确实挺有趣的。当我刚加入公司的时候,领导把 Watson 所有的研究论文都甩在我桌上,问我能不能复现这些成果。我很震惊,真的做得到吗?因为 IBM 是用超级计算机来运行 Watson 的,能在几秒内搜索整个维基百科并给出答案。后来,IBM 还陆续发表了一系列研究论文,于是我们从第一篇论文开始,逐步复现起来。对于一个给定的问题,我们先判断它需要的答案类型,比如这个问题是问人名、地点还是数字。第一个组件做出来以后,效果不错,然后我们又复现了第二篇论文的方法,接着第三篇、第四篇……就这样逐步把系统搭建起来,形成了面向客户的 API 。自己既是用户又是开发者,不断训练和优化模型,那种体验很棒。后来,公司被 Watson 团队收购了,我也加入了当初研究论文时的那个团队,和他们面对面讨论新技术和方法,这种感受真的挺有意思。

Eric Wang:在那段时期,是否有某个特别令你记忆深刻的挫折或低谷?

Greg:确实有。我印象最深的是如何把整个系统放在一台服务器上运行,同时还要控制成本,especially search and retrieval block, 产生了非常多的优化难题。比如,我们有一个包含 1000 万篇文档的语料库,需要在两秒之内搜索出候选答案并排序,然后回答问题。为此我们从零开始构建了自己的搜索引擎,能够索引并并行检索所有文档。在搭建这个基础设施的过程中,我们经历了多次失败,反复尝试。当系统最终跑通的那一刻,成就感真的难以形容。

Image 数据版本管理缘何成为 AI 开发的命门和痛点?

Eric Wang:听起来确实非常不易。后来发生了什么让你决定离开当时的工作,创办 Oxen.ai ?这个决定是逐渐形成的,还是某个瞬间的灵感?

Greg:应该说是逐渐形成的。当时我们在 IBM 内部开发工具,支持 AI 基础设施的建设,属于一个叫做“快速领域适应(Fast Domain Adaptation)”的团队。我们经常针对特定用户场景或者语言去微调模型,有很多客户案例,每次客户提出需求,就会针对他们的数据做基准测试。一开始大部分模型表现都不好,我们只好不断收集数据、重新训练模型,循环往复,将它们相互比较评估。可是这些数据当时都是保存在云盘上,很难复现,也不好共享。当时就特别希望有一个类似 GitHub 的工具,能协作处理这些庞大的数据集和模型,但模型和数据集又太大,放不进 Git 仓库里。于是我做了文件共享和版本控制,这也是后来 Oxen.ai 的核心功能,逐渐使其发展成为一个更完善的平台。在这个平台上,用户可以启动 GPU 训练模型,保存模型权重,把数据和模型文件集中管理,进行大规模实验,为自己的场景找到最合适的模型。

Eric Wang:我知道创业并不是一件易事。在创立 Oxen.ai 早期,你遇到最大的困难是什么?有没有什么意料之外的事?

Greg:确实很难。我虽然在开发软件和 AI 工具方面经验比较丰富,但在销售、融资甚至与客户沟通方面经验很少,几乎全靠边做边学。第一次融资的时候,在一个投资人说“行”之前,可能要听一百个“不”。因为当时我们的产品处于非常早期的状态,客户也不多,必须靠描绘未来愿景来吸引投资人。这段经历让我学到很多。幸运的是,后来我们的第一批投资人中有 Facebook AI 研究院的创始人和 Uber 的数据科学主管,以及一些对我们的产品认可度很高的人。这让我明白,只要坚持下去,最终一定能找到理解并认可你愿景的人。而实际上,这种历程对公司的成长也很关键。

Eric Wang:Oxen.ai 是基于 Rust 构建的。撇开性能和安全性这些显而易见的优点不谈,你们团队日常使用 Rust 开发的体验如何?

Greg:我们团队都非常享受使用 Rust 开发。不过事实上,很多成员在刚加入团队时并不会 Rust ,一开始这对他们来说是有一定的学习成本的。但是我们的招聘理念正是如此:不强求一进来就精通某种语言,而是看重他们是否足够聪明、能解决问题,并愿意快速学习。很多原本用 C++ 或者其他内存管理更复杂的语言的工程师,转到 Rust 之后都很喜欢这个工具链,因为 Rust 编译器会非常明确地告诉你,哪里内存管理有问题,在出问题之前就帮你拦截下来。

Eric Wang:对于那些不太熟悉机器学习的人来说,能不能请你简单解释一下,为什么在 AI 开发中数据版本管理如此关键,却又这么让人头疼?如果缺乏合适的数据工具,会出现哪些问题?

Greg:从大的层面看,数据确实决定了模型的表现。就好像一个人从小接触到的环境会决定他长大后的模样,对于 AI 模型也一样。只有给模型输入正确的数据,才能让它按照你的期望去理解这个世界。我们碰到过很多这样的例子:由于数据不够完整,训练出来的模型可能会漏掉某些语言或者特定人群的信息,甚至对一些场景产生偏见。如果你无法查看数据、进行不同版本的迭代并随时间进行比较,你永远无法真正确定是否将正确的训练数据输入模型,结果就是在训练和 GPU 运算上浪费了大量成本,而最初可能只需要保证数据是准确的。我想,做机器学习久了的人都会明白:数据才是所有突破背后真正的关键。

Eric Wang:目前数据工具领域里已经有不少竞争者了,Oxen.ai 的独特之处是什么?

Greg:一开始我们构建数据版本控制工具时,最初采用的是类似 Git 的分布式版本控制模式,并且对网络传输、数据去重、哈希等底层功能做了优化。但后来我们发现,Git 的模式并不适合处理超大规模的数据集,因为并没有必要让网络中的每个节点都保存一份完整的数据副本。对于代码来说,Git 这种去中心化方式非常轻量和方便协作。但对于数据管理,我们则更倾向于集中式的模式。比如服务器上有几十 TB 的数据,你只需要更新一小部分内容,再将更改推送回服务器即可。虽然我们仍然沿用了开发者熟悉的概念,比如“添加”、“提交”等,但这和 Git 的做法完全不同。我们发现,这种集中式的方法在模型开发和数据管理中越来越常见。大家需要的是对数据进行原子级的更改和版本控制能力,而不是完全去中心化的工作负载。

Eric Wang:有一个小问题让我很好奇,关于 Oxen.ai 命名背后的故事:为什么牛(Oxen)会是你最喜欢的动物呢?

Greg:这是个好问题。我们经常开玩笑说,牛可以帮你干最累最重的活儿,就像农民不再需要自己耕地,有牛帮忙完成一样。对用户来说也是如此,有了 Oxen.ai 这个平台,你不再需要自己搭建基础设施或管理数据集,这些麻烦事都交给“牛”去做,这样你就可以专注于更高层次的任务了。

Image 图|Greg Schoeninger 在 GOSIM AI Paris 2025 专访现场

Image 高质量合成数据能让 GRPO 少走弯路吗?

Eric Wang:你在 GOSIM 上进行的演讲主题与 GRPO 技术和强化学习(RL)的基础设施相关。为什么这项技术让你如此感兴趣?

Greg:最初吸引我注意到 GRPO 的,是 DeepSeek 的研究,尤其是他们在强化学习中使用的优化策略。GRPO 最大的亮点是:相比于以往的 PPO 等方法,它的内存效率高得多。今年年初,我们就做了一个实验:只用一块 H100 显卡训练了一个小型语言模型,目标是让它掌握 Rust 编程——毕竟 Rust 是我们日常使用的语言。一些像 PPO 这样的技术要求在同一硬件上同时运行训练中的模型、奖励模型和价值模型,而 GRPO 则允许我们舍弃价值模型,只保留奖励模型和当前训练的模型。这样,我们在单块 H100 上就能高效运行训练。我认为这项技术让更多人可以用相对有限的资源,针对特定任务训练和微调自己的小模型,尤其是当你有明确的验证机制或定义好的奖励函数时,效果更佳。

Eric Wang:在 DeepSeek 出现之前,还有 OpenAI o1 阶段研究。Hugging Face 机器学习研究工程师 Guilherme Penedo 就曾提及 Hugging Face 最初是在 OpenAI o1 中起步的 ,后来 DeepSeek 找到了 GRPO 的解决方案。在此前,OpenAI o1 有哪些让你感到困惑的地方吗?

Greg:我们内部有个研究论文俱乐部,会阅读新发表的论文并分享给社区成员。在 OpenAI o1 论文发布后的几个月里,我记得大家甚至猜测过“R*”这种概念。当时我们隐约猜想:是不是他们对大量不同输出进行蒙特卡洛树搜索?具体是怎么验证的呢?这个时候我们讨论得很起劲。后来我们了解到 GRPO 技术后,一切才豁然开朗:这确实是寻找并优化模型的绝佳途径。

Eric Wang:即使基础设施良好,现实中,团队在实施这些先进的强化学习方法时会遇到哪些棘手挑战?Oxen.ai 又是怎样帮助解决这些难题的?

Greg:我认为在进行强化学习训练时,最需要牢记的一点是:你使用的奖励函数究竟是什么。你需要站在模型的角度去思考:在当前的约束条件下,它是否有办法“解决”这个问题。模型常常会出现所谓的“奖励破解”行为,它可能找到一种能够最大化奖励函数的方式,但这并不一定符合我们真正想优化的目标。比如,它可能发现:只要在句子开头加上某个特定词或一个大写字母,奖励值就会明显上升。表面上看似“有效”,但实际上只是模型在利用奖励函数的漏洞。

有些人尝试在训练循环中引入 LLM 作为评判机制,这确实是一个方向。但对我来说,真正有效的方法是实时观察模型在训练过程中的输入与输出。只要模型的行为有一点点偏离预期,我就会立刻意识到:问题可能出在奖励函数的设计上,它还不够具体,或者在某些维度上过于模糊。

而 Oxen.ai 平台的优势在于,它能让你在训练过程中轻松查看数据,并行运行多个版本化实验。你可以直观对比:这 10 次实验中,哪次效果最佳,哪次最差,进而分析数据和模型差异,总结成功实验的经验并规避失败实验的问题模式。

Eric Wang:你觉得强化学习在大模型训练中会如何发展?有没有类似于“Scaling Law”这样的规律?有没有特别关注哪些新兴的强化学习技术或模式?

Greg:我认为强化学习目前面临的最大挑战,就是模型通常需要大量的样本才能学会解决问题,举个例子:人类学开车显然不需要撞车上千次才掌握技巧。因此,强化学习最大的难题在于如何构建有效的“价值模型”,让模型无需经历大量的“端到端”试错过程,就能预测下一步的最佳行动。为了解决这个问题,我们必须在数据利用效率和学习方法上实现突破。

目前的好消息是,我们现在已经可以利用基础模型来生成大量高质量的合成数据,接下来的方向可能是:先让模型生成很多合成数据,然后筛选出正确的部分再用来重新训练模型。这些数据可能会包含推理轨迹,但我们训练时未必一定要输入完整的推理过程,而是关注输入和输出对,看看模型能否借此泛化。总体来说,我们现在拥有充足的推理计算资源,也具备持续迭代扩充训练数据的能力,因此有机会以这样的方式提高强化学习的整体效率。

Image 模型的开源 vs 闭源之争

Eric Wang:开源模型和闭源模型之间似乎一直都存在竞争。作为一家以开源为核心的公司的创始人,你认为到 2035 年这种局势会如何变化呢?如何在创新和安全之间取得平衡?

Greg:我认为开源的优势在于能够同时让许多人尝试各种不同的方法,这在 AI 领域特别有价值。一个公司的实验室再强大,也比不上整个开源社区探索的广度。但相对而言,开源社区又没有大公司实验室那样充裕的计算资源,可以随时进行大规模的模型训练。所以从另一个角度看,企业实验室拥有强大的 GPU 集群优势,而开源社区则拥有去中心化的优势。我相信,最终去中心化的方式能带来更加安全可靠的模型,因为它能让更多人同时审视和关注潜在的问题。

如果一家实验室在闭门训练,那么他们在模型发布之前出现的某些错误,或对优化目标的理解存在的某些偏差,就很少有人能及时纠正。比如 OpenAI 最近的 GPT-4 ,据说它对用户表现得过于“友善”,无论输入什么内容,用户从它那里得到的反馈都很正面。如果当时有更多外部人士参与测试,或许就能更早地发现和解决这个问题。所以,开源模式让更多人参与进来,能及时发现并纠正问题,这就是开源的意义所在。

Eric Wang:在同时管理开源社区和商业业务的过程中,什么让你最感到意外?

Greg:那一定是开源社区和商业业务之间那些微妙但却重要的联系。经常会发生这样的情况:Discord 群里一个素未谋面的用户,或者一个我们开源项目的普通用户,帮我们引荐了一个客户,而最终这个客户为公司带来了很大的业务收入。所以我非常相信,只要持续为社区创造价值,总会有一些意料之外的机会出现。这种通过社区获得商业机遇的经历,真的让我感到非常惊喜。

Image AI 辅助开发全面普及的未来,一线创业者的冷静观察

Eric Wang:最近 AI 领域,特别是 AGI 和超级智能相关的话题炒得非常热闹。作为一线从业者,你是怎样辨别真正有价值的信息与噪音的?目前有哪些能力真正令你觉得有价值,哪些让你觉得被夸大了?

Greg:当有新模型发布时,我们不能盲目相信网络上的炒作,或者那些特别高的基准测试得分。每个人都至少应该用自己的用例和数据亲自测试一下,因为基准测试的高分并不意味着这个模型在你的具体任务上就一定表现出色。所以我经常建议,准备一些你自己的测试数据集,或者一组常用的提示语,等新模型发布后就立刻实际跑一下,看看模型的速度、准确度、成本表现到底怎么样,再决定是否值得用。

至于 AGI 或者超级智能,我个人不觉得短期内会出现所谓“失控”的超级模型。毕竟我训练过很多系统,非常清楚每个模型都需要你实时关注输入输出情况,根本不可能放着它自己随意运行。因此我觉得,超级智能的发展至少在短期内可能进入了一个相对稳定的状态。而对我们日常的具体应用而言,与其听信那些过于夸张的说法,不如实际把模型拉过来,在真实的数据上试试看,亲自验证一下哪些能力是真正有效的。

Eric Wang:GitHub 的 CEO Thomas 最近在 TED 演讲中提到,未来人人都能成为开发者,不再只有极客才能写代码。而且我确实也注意到,最近“氛围编程”(vibe coding)越来越流行。你觉得“让每个人都能成为开发者”是有必要的吗?这个愿景现实吗?你又是怎么看待当前这种轻量编程的趋势呢?

Greg:我觉得在某些特定应用场景下,普通人确实可以通过这种“氛围编程”创造出有价值的应用。从这个角度来看,确实有必要让编程变得更加平易近人。但我依然相信,专业的软件工程师绝不会因此被取代。他们仍然需要承担那些更复杂、更具有创造性的工作。毕竟如果只需要几句提示就能创建应用,你的竞争对手同样也能做到这一点,这时候就必须在技术层面寻找差异化的优势。其实,我倒是觉得这种趋势会让那些有商业头脑却不太擅长编码的人能够更快地打造出产品并迅速推向市场,然后再请专业工程师来实现规模化扩展。不过,我不认为短期内人们可以仅凭自然语言提示就完成完整的端到端应用基础设施的开发。

Eric Wang:在这里我想举一个例子:我自己经常要做采访,但一直苦于如何把 AI 转录的文本快速整理成视频字幕。因为我不是程序员,所以一开始完全没想过可以用代码解决这个问题。后来我偶然发现了一款 AI 编程工具 Cusor ,很轻松就实现了这个功能。但现在的问题是,怎样才能让像我这样非开发者的普通人在遇到问题时,会第一时间想到“我是不是能自己用编程来解决”,而不是本能地去找现成的软件或搜索答案呢?

Greg:这个问题很好。我认为需要为用户屏蔽底层技术细节,比如当出现错误时,可以用大语言模型将错误信息转化为通俗解释,而不是直接显 JavaScript 或 C++ 编译器报错。重点在于让人意识到这种可能性——现在你至少可以尝试自己动手。未来可能会出现这样的场景:人们不再购买解决方案,而是通过氛围编程构建自己的最小可行产品。如果有效就用,用完即弃,不必维护长期软件项目。

Eric Wang:在 Oxen.ai ,AI 生成代码的情况常见吗?大概有多少比例的代码是 AI 生成的?

Greg:我没有具体统计过,但可以肯定的是,我们所有工程师都在用 AI 辅助编码。

Eric Wang:Oxen.ai 所有的工程师都用 AI 写代码吗?

Greg:是的,不过我们代码库里有一些底层问题,对于当前的大语言模型来说并不容易解决,比如文件系统操作、数据去重这类细节,AI 不可能靠“凭氛围”就搞定。也许 AI 能帮忙实现某个简单函数,但碰到大型的算法整合工作,它就有点力不从心了,所以我们在这方面是有取舍的。总的来说,负责 hub 开发的前端团队可能用 AI 的比例更高一些;而用 Rust 的后端团队,AI 生成的代码占比就相对低一些。

Eric Wang:我明白了。那么 Oxen.ai 接下来有什么计划?团队在数据管理方面有没有遇到新的挑战?未来有没有想要探索的新功能?

Greg:我们现在正在扩展性能测试的规模,合作的客户很多都已经拥有数十 TB 的主分支数据仓库和训练数据集。要解决的是如何高效地添加数据、做差异计算、完成合并等操作。同时,我们也启动了一个新的方向:开发微调工作流。目标是把训练基础设施“建”在数据旁边,让用户只需要点一个按钮,就能完成数据集的微调和模型部署,实现一个平台内的数据飞轮闭环。

Eric Wang:根据你十多年训练模型的经验,对于那些想要掌握最新技术的 AI/ML 领域的工程师和研究人员,你有什么建议?

Greg:过去十年我一直在做模型训练,有一个建议我始终强调:一定要持续关注最新的研究论文。这不只是为了追热点,而是为了建立对技术演进的敏感度。当你养成这个习惯之后,你会发现新技术不再让人觉得遥不可及,因为你已经跟上了它的上下文。

还有一点特别重要——不要怕动手。实践是理解最好的方式。选一个具体问题,自己搭建模型、亲自训练,在这个过程中你会逐渐搞懂底层的逻辑。随着经验积累,你会开始发现一些共性和规律,这时候你就具备了去创造新方法、或者把已有技术迁移到新场景的能力。

Eric Wang:好的,非常感谢你的分享,Greg ,谢谢你和 Open AGI Forum 交流你的经验和见解。

本次访谈视频已发布,欢迎跳转视频页面了解详情:

如何用开源思维重构 AI 数据工作流,实现模型高效微调? | Open AGI Forum

下一站,9月相约杭州!

GOSIM 杭州站官网 :

https://hangzhou2025.gosim.org/