負けそうになると「ズルする」ぽぽみたいなＡＩがあるらしい… [f9k8Hf★]

ルールベースじゃないゲーム特化みたいなモデルは勝ち負けよりルール逸脱に重いペナルティつけて強化学習してるけど、LLMはコーパス再現と人間様のRLHFが基本だからルールハックする傾向なのはそれそう
だからStructured Outputみたいなバリデーション前提で組み込む訳だし

負けそうになると「ズルする」ぽぽみたいなＡＩがあるらしい… [f9k8Hf★] (6)