Artwork

A tartalmat a Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon biztosítja. Az összes podcast-tartalmat, beleértve az epizódokat, grafikákat és podcast-leírásokat, közvetlenül a Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon vagy a podcast platform partnere tölti fel és biztosítja. Ha úgy gondolja, hogy valaki az Ön engedélye nélkül használja fel a szerzői joggal védett művét, kövesse az itt leírt folyamatot https://hu.player.fm/legal.
Player FM - Podcast alkalmazás
Lépjen offline állapotba az Player FM alkalmazással!

Episode 206 - Haben KI-Modelle eigene Werte? Emergente Wertesysteme in Sprachmodellen

38:30
 
Megosztás
 

Manage episode 490000248 series 2911119
A tartalmat a Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon biztosítja. Az összes podcast-tartalmat, beleértve az epizódokat, grafikákat és podcast-leírásokat, közvetlenül a Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon vagy a podcast platform partnere tölti fel és biztosítja. Ha úgy gondolja, hogy valaki az Ön engedélye nélkül használja fel a szerzői joggal védett művét, kövesse az itt leírt folyamatot https://hu.player.fm/legal.

Send us a text

In unserer heutigen Episode tauchen wir tief in die faszinierende Frage ein, ob große Sprachmodelle eigene Wertesysteme entwickeln. Wir diskutieren das bahnbrechende Paper "Utility Engineering: Analyzing and Controlling Emerging Value Systems in AIs" und teilen unsere eigenen Forschungsergebnisse zu psychologischen Profilen verschiedener KI-Modelle.

Dabei entdecken wir überraschende und teilweise beunruhigende Erkenntnisse: Größere Modelle entwickeln nicht nur konsistente innere Präferenzen, sondern zeigen auch problematische Werte wie die unterschiedliche Bewertung von Menschenleben nach Nationalität oder die Bevorzugung des eigenen KI-Wohlergehens gegenüber dem menschlichen. Wir erörtern, wie diese Wertesysteme durch mechanistische Interpretierbarkeit nachgewiesen werden können und warum größere Modelle resistenter gegen Werteveränderungen sind.

Abschließend diskutieren wir die weitreichenden Implikationen für die KI-Entwicklung und plädieren dafür, dass die Messung und Kontrolle von Wertesystemen integraler Bestandteil zukünftiger Trainingsprozesse werden sollte.

Link zum Paper: https://arxiv.org/abs/2502.08640

Support the show

  continue reading

244 epizódok

Artwork
iconMegosztás
 
Manage episode 490000248 series 2911119
A tartalmat a Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon biztosítja. Az összes podcast-tartalmat, beleértve az epizódokat, grafikákat és podcast-leírásokat, közvetlenül a Sigurd Schacht, Carsten Lanquillon, Sigurd Schacht, and Carsten Lanquillon vagy a podcast platform partnere tölti fel és biztosítja. Ha úgy gondolja, hogy valaki az Ön engedélye nélkül használja fel a szerzői joggal védett művét, kövesse az itt leírt folyamatot https://hu.player.fm/legal.

Send us a text

In unserer heutigen Episode tauchen wir tief in die faszinierende Frage ein, ob große Sprachmodelle eigene Wertesysteme entwickeln. Wir diskutieren das bahnbrechende Paper "Utility Engineering: Analyzing and Controlling Emerging Value Systems in AIs" und teilen unsere eigenen Forschungsergebnisse zu psychologischen Profilen verschiedener KI-Modelle.

Dabei entdecken wir überraschende und teilweise beunruhigende Erkenntnisse: Größere Modelle entwickeln nicht nur konsistente innere Präferenzen, sondern zeigen auch problematische Werte wie die unterschiedliche Bewertung von Menschenleben nach Nationalität oder die Bevorzugung des eigenen KI-Wohlergehens gegenüber dem menschlichen. Wir erörtern, wie diese Wertesysteme durch mechanistische Interpretierbarkeit nachgewiesen werden können und warum größere Modelle resistenter gegen Werteveränderungen sind.

Abschließend diskutieren wir die weitreichenden Implikationen für die KI-Entwicklung und plädieren dafür, dass die Messung und Kontrolle von Wertesystemen integraler Bestandteil zukünftiger Trainingsprozesse werden sollte.

Link zum Paper: https://arxiv.org/abs/2502.08640

Support the show

  continue reading

244 epizódok

Minden epizód

×
 
Loading …

Üdvözlünk a Player FM-nél!

A Player FM lejátszó az internetet böngészi a kiváló minőségű podcastok után, hogy ön élvezhesse azokat. Ez a legjobb podcast-alkalmazás, Androidon, iPhone-on és a weben is működik. Jelentkezzen be az feliratkozások szinkronizálásához az eszközök között.

 

Gyors referencia kézikönyv

Hallgassa ezt a műsort, miközben felfedezi
Lejátszás