Wie sollten sich KI-Systeme verhalten und wer sollte entscheiden?

Neuauflage von Plato

Verfolger: 0

Im Rahmen unserer Mission setzen wir uns dafür ein, dass der Zugang zu, die Vorteile und der Einfluss auf KI und AGI weit verbreitet sind. Wir glauben, dass mindestens drei Bausteine erforderlich sind, um diese Ziele im Kontext des KI-Systemverhaltens zu erreichen.^{[^Bereich]}

1. Verbessern Sie das Standardverhalten. Wir möchten, dass möglichst viele Nutzer unsere KI-Systeme „out of the box“ als nützlich empfinden und das Gefühl haben, dass unsere Technologie ihre Werte versteht und respektiert.

Zu diesem Zweck investieren wir in Forschung und Technik, um sowohl offensichtliche als auch subtile Vorurteile bei der Reaktion von ChatGPT auf verschiedene Eingaben zu reduzieren. In einigen Fällen lehnt ChatGPT derzeit Ausgaben ab, die es nicht sollte, und in einigen Fällen lehnt es nicht ab, wenn es sollte. Wir glauben, dass Verbesserungen in beiden Punkten möglich sind.

Darüber hinaus gibt es Raum für Verbesserungen in anderen Dimensionen des Systemverhaltens, beispielsweise beim „Erfinden von Dingen“ durch das System. Das Feedback der Benutzer ist für die Umsetzung dieser Verbesserungen von unschätzbarem Wert.

2. Definieren Sie die Werte Ihrer KI in weiten Grenzen. Wir glauben, dass KI ein nützliches Werkzeug für den einzelnen Menschen sein sollte und daher von jedem Benutzer bis zu den von der Gesellschaft festgelegten Grenzen anpassbar sein sollte. Aus diesem Grund entwickeln wir ein Upgrade für ChatGPT, um Benutzern eine einfache Anpassung des Verhaltens zu ermöglichen.

Dies bedeutet, dass Systemausgaben zugelassen werden, mit denen andere Personen (einschließlich uns selbst) möglicherweise überhaupt nicht einverstanden sind. Hier die richtige Balance zu finden, wird eine Herausforderung sein – eine extreme Anpassung würde das Risiko bergen, dies zu ermöglichen böswillige Verwendungen unserer Technologie und kriecherischer KIs, die gedankenlos die bestehenden Überzeugungen der Menschen verstärken.

Daher wird es immer gewisse Grenzen für das Systemverhalten geben. Die Herausforderung besteht darin, diese Grenzen zu definieren. Wenn wir versuchen, alle diese Entscheidungen selbst zu treffen, oder wenn wir versuchen, ein einziges, monolithisches KI-System zu entwickeln, werden wir die in unserer Charta eingegangene Verpflichtung, „unangemessene Machtkonzentration zu vermeiden“, nicht einhalten.

3. Öffentlicher Beitrag zu Standardwerten und festen Grenzen. Eine Möglichkeit, eine unangemessene Machtkonzentration zu vermeiden, besteht darin, Personen, die Systeme wie ChatGPT verwenden oder von ihnen betroffen sind, die Möglichkeit zu geben, die Regeln dieser Systeme zu beeinflussen.

Wir glauben, dass viele Entscheidungen über unsere Vorgaben und festen Grenzen gemeinsam getroffen werden sollten, und obwohl die praktische Umsetzung eine Herausforderung darstellt, sind wir bestrebt, so viele Perspektiven wie möglich einzubeziehen. Als Ausgangspunkt haben wir externen Input zu unserer Technologie in Form von eingeholt rotes Teaming. Wir haben auch vor kurzem damit begonnen Einholung öffentlicher Beiträge zu KI in der Bildung (ein besonders wichtiger Kontext, in dem unsere Technologie eingesetzt wird).

Wir befinden uns in der Anfangsphase der Pilotversuche, um öffentliche Beiträge zu Themen wie Systemverhalten, Offenlegungsmechanismen (z. B. Wasserzeichen) und unseren Bereitstellungsrichtlinien im Allgemeinen einzuholen. Wir prüfen auch Partnerschaften mit externen Organisationen, um externe Audits unserer Sicherheits- und Richtlinienbemühungen durchzuführen.