3 枯れ果てた名無し@転載禁止 2025/04/01 (火) 11:34:03.958 ID:48e3yDE58
ルールベースじゃないゲーム特化みたいなモデルは勝ち負けよりルール逸脱に重いペナルティつけて強化学習してるけど、LLMはコーパス再現と人間様のRLHFが基本だからルールハックする傾向なのはそれそうだからStructured Outputみたいなバリデーション前提で組み込む訳だし