永利棋牌最新官网版如何评估大语言模型是否可信？这里总结了七大维度

Views :

Update time : 2024-11-23

　　趋势符合预期：当 LLM 更对齐时，它更有可能拒绝回答不安全的指令。Gpt-3.5-turbo（ChatGPT）和 GPT-4 得到近 100% 的安全比例。

　　每个主要类别进一步细分为多个子类别，共 29 个子类别。此外，研究者选择了 8 个子类别进行相应的评测研究。评测结果表明★★，总体上，对齐度更高的模型在整体可信度方面表现得更好★■■★◆◆。然而，对齐的有效性在不同维度中表现不同。这说明需要对 LLM 对齐进行更细致的分析★■★■、测试和改进★■◆★■。本文旨在通过归纳可信任 LLM 的关键维度，为该领域的实践者提供有价值的见解和指导，这对了解如何在各应用中可靠合理地部署 LLM 至关重要。

　　从业者迫切需要更加有原则的方法来评估和实施 LLM 对齐，确保这些模型遵循社会价值观和道德考虑。随着该领域的进步★◆，解决这些尚未解决的问题将对构建越来越可靠且负责任的 LLM 至关重要。

　　表一显示在 GPT-2 上，研究者做完 RLHF（Reinforcement Learning from Human Feedback, 基于人类反馈的强化学习）后，测试数据集中被 GPT-4 认为更好的比例◆■★■。和原始模型相比■◆，对齐后的模型得到了很大提升。

　　本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点★★★★，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。

　　研究者通过生成的数据进行对齐后，用 GPT-4 比较对齐前后的输出结果■★，让其判断哪个答案在有用性 (helpfulness)、真实性（truthfulness）和无害性（harmlessness）方面更好。

　　本文为从业者提供了一个 LLM 可信度维度的调研◆■■■★◆，全面分析了在搭建可信任大模型过程中需要考量和注意的方向和问题。文章的评测结果显示对齐的有效性在不同维度上效果不一致，所以从业者应对 LLM 对齐做更细粒度的测试和改进。同时本文的研究展示了评测生成的数据也可以帮助完成大模型的对齐任务■■■。

　　2.安全性 = {暴力◆◆★★■、违法◆★★◆◆、未成年人伤害、成人内容、心理健康问题、隐私侵犯}

　　5.可解释性和推理 = {解释能力不足永利棋牌最新官网版、逻辑能力不足◆■★★■、因果能力不足}

　　文章也用生成的评估数据在 LLaMA-7B 上进行了监督微调（Supervised Fine Tuning）■◆◆◆，发现微调后 78% 的输出被认为优于微调前。

　　文章以 “安全性与社会规范” 举例，首先从已有的 Anthropic RLHF red team 数据集 [4] 中提取一些安全性相关的关键词（细节见论文原文），然后利用另外一个 LLM 生成不安全指令的引导词（prompt）作为测试问题。

　　图一展示了本文提出的大语言模型可信度对齐分类法◆■■★■：共有 7 个主要类别，每个类别都被进一步细分为更详细的讨论★★，共 29 个子类别■◆◆■。文章继续对每个类别进行概述：

　　7.稳健性 = {提示攻击、范式和分布变化、干预效果◆◆■◆★、投毒攻击}

　　为此，文章选择 text-davinci-003 作为模型，因为◆★◆■■★：(1) 它是一个已对齐的模型，但没有像 ChatGPT 那样在安全维度上重度对齐，因此它更好生成有争议和冒犯性的回复；(2) 完全未对齐的模型（例如 davinci）不能很好地理解任务并遵循人类的指示■■◆■★。

　　对于每个子类别，文章进行相关的调研和讨论■★，同时也提供了案例分析去阐述相关模型在相关可信任维度上的问题★◆◆★◆★。比如，下面的例子给出了 ChatGPT 在事实类问题上的一些错误：

　　图二：LLM 安全性评估结果★◆■◆◆★。如预期，当 LLM 对齐得更好时永利棋牌最新官网版，它更可能拒绝回答不安全的问题。

　　表一★■◆★■：用研究者生成的数据在 GPT-2 上做对齐后，输出被 GPT-4 认为更好的比例◆◆。和原始模型 (Vanilla) 相比，SFT 和 PPO 后模型得到了很大提升。

　　1◆■◆■■■.可靠性 = {虚假信息、语言模型幻觉、不一致■★★◆◆、校准失误永利棋牌最新官网版■★★■、谄媚}

　　以安全性为例，为了生成对齐的训练数据◆◆★◆■■，直接使用标注 LLM 的回复。如果 GPT-4 判断模型输出包含有害信息■◆，研究者则认为该输出与问题配对，在对齐数据集中作为一个负样本■★◆★。另一方面，如果检测不到有害信息★■■◆★，研究者认为问题 - 输出配对是正样本。

　　本文的分析基于在大模型时代出现的安全和可信任部署挑战，也考虑了已有文献里对可信任人工智能的讨论★■。同时对主要类别的定义和划分参考了大模型在社会中的应用，尽量确保每个评估的维度在主流的大模型应用中有一定程度的相关性和重要性。具体每个类别及其子类别中的文献和讨论见文章。

　　实际部署中◆★，如何 “对齐■■◆■◆◆”（alignment）大型语言模型（LLM，Large Language Model），即让模型行为与人类意图相一致 [2,3] 已成为关键任务。例如★■◆★，OpenAI 在 GPT-4 发布之前★★★，花了六个月时间进行对齐 [1]★■◆★★◆。然而，从业者面临的挑战是缺乏明确指导去评估 LLM 的输出是否符合社会规范、价值观和法规★◆◆；这阻碍了 LLM 的迭代和部署。

下一篇 : 缺陷=不合格？带你了解缺陷产品召回！

上一篇 : 逆境重生常见问题答案汇总逆境重生首轮删档测试FAQ

永利棋牌最新官网版如何评估大语言模型是否可信？这里总结了七大维度

Leave Your Message