Fogalom

Constitutional AI

Az Anthropic által ismertté tett tréningmódszer, amelyben a modell előre rögzített elvek alapján értékeli és javítja a saját válaszait. Ezzel részben kiváltható az emberi értékelők egy része a biztonsági finomhangolásban.

Analógia

Mint egy belső etikai kódex, amely alapján a munkatárs önmaga is ellenőrzi, hogy a döntése összhangban van-e a szervezet értékeivel.

Miért fontos?

Ez jól mutatja, hogy a biztonság nem csak tiltólistákból áll, hanem elvrendszerből is. Szervezeti szempontból azért releváns, mert közelebb hozza egymáshoz a modellviselkedést, a belső szabályokat és a governance gondolkodást.

Kapcsolódó oldalak

RLHF

Guardrail

Governance

Claude