12月7日消息，OpenAI在第二日的发布会上，将焦点完全放在了企业领域。企业用户现在可以利用“强化微调”（Reinforcement Fine-Tuning）技术，根据各自特定的需求来定制o1 mini模型。

根据OpenAI直播活动参与者的说法，科学家、开发者和研究人员现在能够利用自己的数据来定制强大的o1推理模型，甚至几十个例子就可以，不再局限于仅使用公开数据。通过强化学习技术，各领域的专家可以在o1模型的基础上开发出专业的模型，这将显著提高各自领域的专业能力。

OpenAI联合创始人、首席执行官山姆·奥特曼（Sam Altman)在社交媒体X上发帖表示：

“今天我们宣布推出强化微调功能，这使得在特定领域创建专家级模型变得非常容易，即使只有很少的训练数据也能到。强化微调的alpha项目现已启动，正式版会在明年第一季度发布。”

他随后又表示：

“它的效果简直太棒了，它成了我2024年最大的惊喜之一。真期待看到大家会创造出什么成果！”

什么是强化微调

根据OpenAI官方博客提供的信息，强化微调是一种先进的模型定制技术，它允许开发者通过使用数十到数千个高质量的任务来定制模型，并根据提供的参考答案来评估模型的响应。这种技术通过加强模型在类似问题上的推理能力，提高了模型在特定任务和领域上的准确性。简而言之，强化微调是一种利用强化学习原理来进一步优化和定制预训练模型的方法，使其在特定任务上表现更佳。

ChatGPT对此的解释是：“在人工智能中，强化微调指的是一种结合了强化学习（RL）技术与监督式微调的训练方法。它通常用于提升人工智能模型的性能，特别是在期望行为涉及复杂决策或与人类偏好一致的场景中。本质上，强化微调允许人工智能结合来自大规模预训练的通用知识，与由强化学习信息的任务特定优化，从而产生既能干又与期望目标一致的模型。”

强化微调的作用

在人工智能领域，强化微调技术正成为提升模型性能的关键手段。这项技术通过利用大型模型对特定数据进行训练，使得模型能够更深入地理解和处理复杂领域的问题，尤其是在那些需要大量数据和专家知识的研究中。

OpenAI的o1模型和GPT-4o虽然能够分析上传的数据，但它们在未经微调的情况下，无法达到在特定数据上微调后的模型版本所具有的深度理解。现在，o1模型首次能够对复杂数据进行推理，这大大增强了其实用性。用户需要准备一个数据集和一个评分系统，以评估模型在训练和验证数据集上的表现。通过结合o1模型、微调技术和特定数据，用户可以创建一个性能超越原始o1模型的新版本--o1 mini。这一过程中，OpenAI将承担所有技术工作，用户仅需提供数据支持。

OpenAI的强化微调研究计划

OpenAI表示，强化微调技术目前处于研究预览阶段，计划在明年全面推出。该公司当前诚邀研究机构、大学以及企业参与强化微调研究计划（Reinforcement Fine-Tuning Research Program）。预计在法律、保险、医疗保健、金融和工程等领域有积极结果，因为该模型在结果具有客观“正确”答案（大多数专家都会同意）的任务中表现出色。

OpenAI的强化微调研究计划包括以下内容：

API访问权限：作为研究计划的一部分，参与者将获得OpenAI的强化微调API的alpha版本访问权限，以便在其专业领域任务中测试这项技术。

反馈与改进：OpenAI将征求用户的反馈，以便在API公开发布之前对其进行改进。

数据集合作：OpenAI希望与愿意共享数据集的组织合作，利用这些数据进一步优化模型性能。