4 枯れ果てた名無し@転載禁止 2025/07/10 (木) 14:21:37.645 ID:ugTnqIJfJ
とはいえ言語のレイヤーだとn-gramレベルじゃなくてCFGで模倣してるしチート傾向はしゃーない気がするRLHFが会話用のspecial tokenだとかstructed outputみたいなフォーマットの過学習で収まらずゴマすり報酬関数でぶん回してるのが悪いのはそれはそうなんだけど