September 7th, 2023 - SLiMe, Matcha-TTS, RoboSense, and CM3Leon: Revolutionizing Vision, Speech, and Multi-Modal Intelligence for a Smarter, Faster Future
MP3•Epizód kép
Manage episode 376364153 series 3485608
A tartalmat a Marcus Edel biztosítja. Az összes podcast-tartalmat, beleértve az epizódokat, grafikákat és podcast-leírásokat, közvetlenül a Marcus Edel vagy a podcast platform partnere tölti fel és biztosítja. Ha úgy gondolja, hogy valaki az Ön engedélye nélkül használja fel a szerzői joggal védett művét, kövesse az itt leírt folyamatot https://hu.player.fm/legal.
…
continue reading
Fejezetek
1. Intro (00:00:00)
2. SLiMe: Segment Like Me (00:01:22)
3. Matcha-TTS: A fast TTS architecture with conditional flow matching (00:03:01)
4. Physically Grounded Vision-Language Models for Robotic Manipulation (00:04:45)
5. Scaling Autoregressive Multi-Modal Models: Pretraining and Instruction Tuning (00:05:49)
75 epizódok