this post was submitted on 31 Jan 2025
19 points (95.2% liked)
DACH - Deutschsprachige Community für Deutschland, Österreich, Schweiz
2321 readers
467 users here now
Das Sammelbecken auf feddit.org für alle Deutschsprechenden aus Deutschland, Österreich, Schweiz, Liechtenstein, Luxemburg und die zwei Belgier. Außerdem natürlich alle anderen deutschprechenden Länderteile der Welt.
Ursprünglich wurde diese Community auf feddit.de gegründet. Nachdem feddit.de mit immer mehr IT-Problemen kämpft und die Admins nicht verfügbar sind, hat ein Teil der Community beschlossen einen Umzug auf eine neue Instanz unter dem Dach der Fediverse Foundation durchzuführen.
Für länderspezifische Themen könnt ihr euch in folgenden Communities austauschen:
Eine ausführliche Sidebar mit den Serverregeln usw. findet ihr auf der Startseite von feddit.org
___
founded 7 months ago
MODERATORS
you are viewing a single comment's thread
view the rest of the comments
view the rest of the comments
Man trainiert ein Modell mit weniger Parametern um ein Modell mit vielen Parametern zu imitieren. Führt zu Leistungsverlusten bei der Ausgabequalität, aber braucht dann weniger Ressourcen beim Ausführen und funktioniert einigermaßen so wie das Ursprungsmodell in schlechter. Modelle mit 1 -15 Mrd. Parametern laufen auf einem gängigen modernen Laptop. Aber einige Modelle aus denen solche kleinen Modelle distilled wird sind viel größer (zum Beispiel , Deepseek R1 mit 640 Mrd. Parametern) und brauchen hunderte Gigabyte (Video-)RAM um laufen zu können.
Danke für die Erklärung. Verstehe