Reward Models | Data Brew | Episode 40 Data Brew By Databricks podcast

Artwork

Databricks Data Analytics Apache Spark Delta Lake Machine Learning Data Engineering Artificial Intelligence Tech Data Science Science Lifestyle Podcasting Education

A tartalmat a Databricks biztosítja. Az összes podcast-tartalmat, beleértve az epizódokat, grafikákat és podcast-leírásokat, közvetlenül a Databricks vagy a podcast platform partnere tölti fel és biztosítja. Ha úgy gondolja, hogy valaki az Ön engedélye nélkül használja fel a szerzői joggal védett művét, kövesse az itt leírt folyamatot https://hu.player.fm/legal.

Data Brew by Databricks « »
Reward Models | Data Brew | Episode 40

8M ago 39:58

Megosztás

MP3•Epizód kép

A tartalmat a Databricks biztosítja. Az összes podcast-tartalmat, beleértve az epizódokat, grafikákat és podcast-leírásokat, közvetlenül a Databricks vagy a podcast platform partnere tölti fel és biztosítja. Ha úgy gondolja, hogy valaki az Ön engedélye nélkül használja fel a szerzői joggal védett művét, kövesse az itt leírt folyamatot https://hu.player.fm/legal.

In this episode, Brandon Cui, Research Scientist at MosaicML and Databricks, dives into cutting-edge advancements in AI model optimization, focusing on Reward Models and Reinforcement Learning from Human Feedback (RLHF).
Highlights include:
- How synthetic data and RLHF enable fine-tuning models to generate preferred outcomes.
- Techniques like Policy Proximal Optimization (PPO) and Direct Preference
Optimization (DPO) for enhancing response quality.
- The role of reward models in improving coding, math, reasoning, and other NLP tasks.
Connect with Brandon Cui:
https://www.linkedin.com/in/bcui19/

… continue reading

44 epizódok

#Databricks #Data Analytics #Apache Spark #Delta Lake #Machine Learning #Data Engineering #Artificial Intelligence #Tech #Data Science #Science #Lifestyle #Podcasting Education

Artwork

Reward Models | Data Brew | Episode 40

Data Brew by Databricks

71 subscribers

published 8M ago

Megosztás

MP3•Epizód kép

A tartalmat a Databricks biztosítja. Az összes podcast-tartalmat, beleértve az epizódokat, grafikákat és podcast-leírásokat, közvetlenül a Databricks vagy a podcast platform partnere tölti fel és biztosítja. Ha úgy gondolja, hogy valaki az Ön engedélye nélkül használja fel a szerzői joggal védett művét, kövesse az itt leírt folyamatot https://hu.player.fm/legal.

In this episode, Brandon Cui, Research Scientist at MosaicML and Databricks, dives into cutting-edge advancements in AI model optimization, focusing on Reward Models and Reinforcement Learning from Human Feedback (RLHF).
Highlights include:
- How synthetic data and RLHF enable fine-tuning models to generate preferred outcomes.
- Techniques like Policy Proximal Optimization (PPO) and Direct Preference
Optimization (DPO) for enhancing response quality.
- The role of reward models in improving coding, math, reasoning, and other NLP tasks.
Connect with Brandon Cui:
https://www.linkedin.com/in/bcui19/

… continue reading

44 epizódok

#Databricks #Data Analytics #Apache Spark #Delta Lake #Machine Learning #Data Engineering #Artificial Intelligence #Tech #Data Science #Science #Lifestyle #Podcasting Education

Minden epizód

×

Üdvözlünk a Player FM-nél!

A Player FM lejátszó az internetet böngészi a kiváló minőségű podcastok után, hogy ön élvezhesse azokat. Ez a legjobb podcast-alkalmazás, Androidon, iPhone-on és a weben is működik. Jelentkezzen be az feliratkozások szinkronizálásához az eszközök között.

Hallgasson 500+ témát

Hallgassa ezt a műsort, miközben felfedezi