負けそうになると「ズルする」ぽぽみたいなAIがあるらしい… [f9k8Hf★] (6)

←← 掲示板一覧に戻る ← スレッド一覧に戻る

3 枯れ果てた名無し@転載禁止 2025/04/01 (火) 11:34:03.958 ID:48e3yDE58

ルールベースじゃないゲーム特化みたいなモデルは勝ち負けよりルール逸脱に重いペナルティつけて強化学習してるけど、LLMはコーパス再現と人間様のRLHFが基本だからルールハックする傾向なのはそれそう
だからStructured Outputみたいなバリデーション前提で組み込む訳だし