Kumru LLM: Türkiye’nin Yerli 7,4 Milyar Parametreli Dil Modeli

kumru llm proje

VNGRS tarafından geliştirilmiş olan Kumru LLM, tamamen Türkçe için sıfırdan eğitilmiş 7,4 milyar parametreli bir büyük dil modelidir. Model, Türkçe dil yapısını en ince detaylarına kadar kavramayı hedeflerken aynı zamanda İngilizce ve kodlama desteği de sunuyor.

Kumru’nun eğitim süreci yaklaşık 45 gün sürdü. 500 GB’lık temizlenmiş veri kümesi üzerinden 300 milyar token ile ön eğitim gerçekleştirildi. Eğitim tamamlandıktan sonra çeşitli görevler için ~1 milyon örnekle ince ayar (fine-tuning) süreci uygulandı.

Teknik Özellikler & Token Kapasitesi

Kumru’nun bağlam uzunluğu **8.192 token** olarak belirlenmiş; yani uzun metinleri işleyebilme kabiliyeti güçlü. Ayrıca model, düşük VRAM gereksinimi ile çalışabilecek şekilde optimize edildi; örneğin 16 GB VRAM’e sahip bir GPU’da çalışabilir şekilde tasarlanmış.

Yapı olarak, Kumru mimarisi Mistral v0.3’e benzeyen bir yapıyı temel alıyor ve kayan pencere (sliding window) kullanımını devre dışı bırakıyor; bu açıdan LLaMA-3 modeliyle benzer yapıya sahip deniyor.

Kumru-2B: Hafif ve Açık Kaynak Versiyonu

Kumru’nun açık kaynak versiyonu olan Kumru-2B, 2 milyar parametreli bir model. Teknik özellikler açısından büyük modele oldukça benzer ama daha hafif yapısıyla mobil / düşük donanımlarda çalışabilir.

Kullanım Alanları & API Entegrasyonu

Kumru, belge işleme, özetleme, soru-cevap sistemleri gibi B2B uygulamalarda yoğun olarak kullanılmak üzere tasarlanmış. AWS Marketplace platformunda API olarak da erişilebilir durumda.

VNGRS, modelin özelleştirilmiş sürümlerini farklı sektörler için sağlayacaklarını; kurumsal destekle uygulamaları sektörlere özel şekilde uyarlayacaklarını belirtiyor.