Natasha Jaques 2

TalkRL: The Reinforcement Learning Podcast

A tartalmat a Robin Ranjit Singh Chauhan biztosítja. Az összes podcast-tartalmat, beleértve az epizódokat, grafikákat és podcast-leírásokat, közvetlenül a Robin Ranjit Singh Chauhan vagy a podcast platform partnere tölti fel és biztosítja. Ha úgy gondolja, hogy valaki az Ön engedélye nélkül használja fel a szerzői joggal védett művét, kövesse az itt leírt folyamatot https://hu.player.fm/legal.

2+ y ago 46:02

MP3•Epizód kép

Hear about why OpenAI cites her work in RLHF and dialog models, approaches to rewards in RLHF, ChatGPT, Industry vs Academia, PsiPhi-Learning, AGI and more!

Dr Natasha Jaques is a Senior Research Scientist at Google Brain.

Featured References

Way Off-Policy Batch Deep Reinforcement Learning of Implicit Human Preferences in Dialog
Natasha Jaques, Asma Ghandeharioun, Judy Hanwen Shen, Craig Ferguson, Agata Lapedriza, Noah Jones, Shixiang Gu, Rosalind Picard

Sequence Tutor: Conservative Fine-Tuning of Sequence Generation Models with KL-control
Natasha Jaques, Shixiang Gu, Dzmitry Bahdanau, José Miguel Hernández-Lobato, Richard E. Turner, Douglas Eck

PsiPhi-Learning: Reinforcement Learning with Demonstrations using Successor Features and Inverse Temporal Difference Learning
Angelos Filos, Clare Lyle, Yarin Gal, Sergey Levine, Natasha Jaques, Gregory Farquhar

Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience
Marwa Abdulhai, Natasha Jaques, Sergey Levine

Additional References

Fine-Tuning Language Models from Human Preferences, Daniel M. Ziegler et al 2019
Learning to summarize from human feedback, Nisan Stiennon et al 2020
Training language models to follow instructions with human feedback, Long Ouyang et al 2022

74 epizódok

#Reinforcement Learning #Machine Learning #Robin Ranjit Singh Chauhan #Artificial Intelligence #Tech

Natasha Jaques 2

TalkRL: The Reinforcement Learning Podcast

84 subscribers

published 2+ y ago

Megosztás

MP3•Epizód kép

Hear about why OpenAI cites her work in RLHF and dialog models, approaches to rewards in RLHF, ChatGPT, Industry vs Academia, PsiPhi-Learning, AGI and more!

Dr Natasha Jaques is a Senior Research Scientist at Google Brain.

Featured References

Basis for Intentions: Efficient Inverse Reinforcement Learning using Past Experience
Marwa Abdulhai, Natasha Jaques, Sergey Levine

Additional References

Fine-Tuning Language Models from Human Preferences, Daniel M. Ziegler et al 2019
Learning to summarize from human feedback, Nisan Stiennon et al 2020
Training language models to follow instructions with human feedback, Long Ouyang et al 2022

74 epizódok

#Reinforcement Learning #Machine Learning #Robin Ranjit Singh Chauhan #Artificial Intelligence #Tech

Minden epizód

Üdvözlünk a Player FM-nél!

A Player FM lejátszó az internetet böngészi a kiváló minőségű podcastok után, hogy ön élvezhesse azokat. Ez a legjobb podcast-alkalmazás, Androidon, iPhone-on és a weben is működik. Jelentkezzen be az feliratkozások szinkronizálásához az eszközök között.

Hallgasson 500+ témát

Hasonló a(z) TalkRL: The Reinforcement Learning Podcast sorozathoz

Podcastok, amelyeket érdemes meghallgatni

TalkRL: The Reinforcement Learning Podcast « » Natasha Jaques 2

Natasha Jaques 2

Podcastok, amelyeket érdemes meghallgatni

Üdvözlünk a Player FM-nél!

Hasonló a(z) TalkRL: The Reinforcement Learning Podcast sorozathoz

Gyors referencia kézikönyv

TalkRL: The Reinforcement Learning Podcast « »
Natasha Jaques 2