OpenAI发布用于发现AI生成代码错误的CriticGPT模型

OpenAI发布漏洞猎人：AI 更擅长自我修复，而非依靠人类帮助

意外的好消息！OpenAI最近发布了一款名为CriticGPT的新模型，专门发现由GPT-4生成的代码错误，而不是依赖人类的帮助。

CriticGPT是什么？

CriticGPT是一个新模型，专为发现GPT-4生成的代码错误而生。OpenAI通过对CriticGPT的训练让它审查由ChatGPT生成的代码，并发现有CriticGPT帮助的情况下，人类审查员的错误检测效率提高了60%。虽然任何AI生成的内容都需要反复检查，但这一进步无疑提升了输出质量。用户可以更加放心地信任ChatGPT生成的代码。

为什么CriticGPT对ChatGPT用户来说重要？

CriticGPT对ChatGPT用户来说无疑是个好消息。首先，它减轻了人类监督AI输出的负担，让专门训练来发现错误的AI帮助人类，效率自然提高。其次，OpenAI计划将类似CriticGPT的模型集成到“从人类反馈中强化学习”（RLHF）的对齐管道中，以便在处理复杂任务时辅助人类监督AI。OpenAI指出，这一过程的关键是让他们所谓的AI训练师对不同的ChatGPT响应进行评分。虽然目前这种方法相对有效，但随着ChatGPT变得越来越准确，错误变得越来越隐蔽，AI训练师的任务也会越来越困难。

CriticGPT是如何培训和实际应用的？

为了培训CriticGPT，AI训练师向其输入包含错误的代码，并为其提供类似发现错误的反馈示例。之后，通过实验检验CriticGPT能否捕捉到手动插入的错误和ChatGPT自发生成的错误。结果显示，在自然发生的错误中，AI训练师更喜欢CriticGPT的反馈，在63%的案例中表现更好。CriticGPT的优势在于，它减少了不必要的小错误报告，更实用，也更少出现幻觉的问题。