Distilling in the Dark: Effective Knowledge Distillation in LLMs Under Data Constraints
Att göra AI smart med små medel – ny metod utmanar gamla träningssätt Under de senaste åren har det blivit allt tydligare att när tillräckligt stora språkmodeller tränas på enorma mängder text, lyckas de extrahera förvånansvärt mycket kunskap. Det leder till en rik representation av världen och en bred uppsättning färdigheter, vilket gör modellerna mycket användbara inom allt från att ge medicinsLarge language models (LLMs) have achieved remarkable capabilities but remain costly to deploy at scale. Knowledge distillation offers a way to transfer knowledge from large, high-capacity models into smaller, more efficient ones. This thesis investigates two key questions: (1) how specific design choices affect distillation performance, and (2) how distillation can be effectively performed in the
