Fraunhofer: "Çok Dilli Açık Kaynak"

Çok Dilli ve Açık Kaynak: OpenGPT-X araştırma projesi büyük dil modelini yayınladı

OpenGPT-X araştırma projesinin büyük dil modeli artık Hugging Face'ten indirilebilir: “Teuken-7B” Avrupa Birliği'nin (AB) 24 resmi dilinin tamamında sıfırdan eğitildi ve yedi milyar parametre içeriyor. Araştırmacılar ve şirketler, kendi yapay zeka (AI) uygulamaları için bu ticari olarak kullanılabilir açık kaynak modelinden yararlanabilirler. Almanya Federal Ekonomi ve İklim Eylem Bakanlığı (BMWK) tarafından finanse edilen, Fraunhofer Akıllı Analiz ve Bilgi Sistemleri IAIS ve Entegre Devreler IIS Enstitüleri liderliğindeki OpenGPT-X konsorsiyumu, açık kaynak kodlu ve belirgin bir Avrupa perspektifine sahip büyük bir dil modeli geliştirdi.

Teuken-7B şu anda sıfırdan çok dilli olarak geliştirilen birkaç büyük dil modelinden biridir. Yaklaşık yüzde 50 İngilizce olmayan ön eğitim verisi içerir ve 24 resmi Avrupa dilinin tamamında eğitilmiştir. Birden fazla dilde performansının istikrarlı ve güvenilir olduğu kanıtlanmıştır. Bu, özellikle çok dilli iletişim gereksinimleri, ürünleri ve hizmetleri olan uluslararası şirketler ve kuruluşlar için katma değer sağlar. Açık kaynak modeli, şirketlerin ve kuruluşların gerçek dünya uygulamalarında kendi özelleştirilmiş modellerini çalıştırmalarına olanak tanır. Hassas kurumsal veriler şirket içinde kalabilir.

OpenGPT-X ekibi, model eğitimine ek olarak, çok dilli yapay zeka dil modellerinin nasıl daha enerji ve maliyet etkin bir şekilde eğitileceği ve çalıştırılacağı gibi bir dizi araştırma sorusunu da ele aldı. Bu amaçla, proje çok dilli bir “tokenizer” geliştirdi. Bir tokenizer'ın görevi, kelimeleri tek tek kelime bileşenlerine ayırmaktır - ne kadar az token olursa, bir dil modeli o kadar (enerji açısından) verimli ve hızlı bir şekilde cevap üretebilir. Geliştirilen tokenizer, Llama3 veya Mistral gibi diğer çok dilli tokenizerlere kıyasla eğitim maliyetlerinde bir azalmaya yol açmaktadır. Bu özellikle Almanca, Fince veya Macarca gibi daha uzun kelime yapılarına sahip Avrupa dilleri için değerlidir.

OpenGPT-X projesi, BMWK programı “Gaia-X dijital ekosisteminde yenilikçi ve pratik uygulamalar ve veri alanları” tarafından finanse edilmiştir. Teuken-7B'ye Gaia-X altyapısı üzerinden erişilebilir. Gaia-X ekosistemindeki aktörler böylece yenilikçi dil uygulamaları geliştirebilir ve bunları kendi alanlarındaki somut uygulama senaryolarına aktarabilir. Mevcut bulut çözümlerinden farklı olarak Gaia-X, hizmet sağlayıcıların ve veri sahiplerinin bağlanmasına olanak tanıyan federe bir ekosistemdir. Veriler güvenli bir şekilde sahiplerinde kalır ve yalnızca tanımlanmış koşullar altında paylaşılır.

“Gaia-X tabanlı büyük bir dil modeli olan Teuken-7B'nin bugün yayınlanmasına tanık olmaktan heyecan duyuyorum ve OpenGPT-X projesini bu önemli dönüm noktasına ulaştığı için tebrik etmek istiyorum. Teuken-7B'nin bir özelliği de, Gaia-X standartları en katı Avrupa veri koruma ve güvenlik düzenlemelerine uygun olarak veri depolama ve işlemeyi garanti ettiği için hassas kurumsal verilerin güvenli bir şekilde kullanılmasını sağlamasıdır. Bu yeni model ve bunun gibi yenilikler Almanya ve Avrupa'nın dijital egemenliğini, rekabet gücünü ve dayanıklılığını güçlendirmektedir. İşte bu nedenle Federal Ekonomi ve İklim Eylemi Bakanlığı projeyi toplamda yaklaşık 14 milyon Avro ile finanse ediyor” dedi.

Fraunhofer IIS Direktörü Prof. Bernhard Grill, modelin güvenlik açısından kritik uygulamalar için potansiyelini vurguluyor: “Bağımsız olarak geliştirilen bu dil modeli ile proje ortakları kendi büyük modellerini oluşturma becerilerini ortaya koymaktadır. Büyük bir dil modeline erişim, örneğin otomotiv, robotik, tıp ve finans gibi güvenlik açısından kritik alanlarda, opak üçüncü taraf bileşenlere ihtiyaç duymadan bu teknoloji üzerinde çok daha fazla kontrol sağlayan uygulamalara olanak tanır. Şirketler, belirli bir uygulamayla ilgili veriler üzerinde eğitim vererek ve uygulamaya özel mimariler kullanarak, 'kara kutu' bileşenleri gerektirmeyen özelleştirilmiş yapay zeka çözümleri oluşturabilir.”

Güçlü bir konsorsiyum tarafından üretilen yapay zeka - Avrupa perspektifiyle
OpenGPT-X projesinden elde edilen önemli araştırma sonuçları, büyük miktarda veriyi işlemek, güçlü Avrupa HPC altyapısından yararlanmak ve verimli model eğitimi gerçekleştirmek için araçlar ve teknolojiler gibi model geliştirmeye dahil edilmiştir. Teuken-7B, Forschungszentrum Jülich'teki JUWELS süper bilgisayarında eğitilmiştir. İki Fraunhofer Enstitüsü ve Forschungszentrum Jülich'in yanı sıra konsorsiyumun ortakları arasında TU Dresden, Alman Yapay Zeka Araştırma Merkezi (DFKI), IONOS, Aleph Alpha, ControlExpert, Westdeutscher Rundfunk (WDR) ve Alman Yapay Zeka Derneği (KI Bundesverband) yer alıyor. OpenGPT-X'te geliştirilen teknoloji, ortaklara gelecekte kendi modellerini eğitmek için de bir temel sağlayacaktır.

“OpenGPT-X, kamu tarafından finanse edilen bir projenin kaynaklarının ve geniş bir konsorsiyumun işbirliğine dayalı çabalarının, temel altyapıdan model eğitimine ve üretken uygulamalara kadar değerli temel teknolojiyi nasıl sunabileceğinin bir örneğidir. Teknoloji ve veri egemenliği açısından bu temel üzerine inşa edilmesi önemlidir: Umudumuz OpenGPT-X'in daha sonraki birçok faaliyet için zemin hazırlamasıdır.” Alman Yapay Zeka Derneği Genel Müdürü ve Avrupa Yapay Zeka Forumu Başkanı Daniel Abbou da bunu vurguluyor.

2022'nin başında başlatılan araştırma projesi artık tamamlanmak üzere. Modellerin daha fazla optimizasyonunun ve değerlendirilmesinin yapılabilmesi için 31 Mart 2025 tarihine kadar sürecektir.

Teuken-7B'yi kullanmaya giden yol
Akademi veya endüstriden ilgilenen geliştiriciler Teuken-7B'yi Hugging Face'ten ücretsiz olarak indirebilir ve kendi geliştirme ortamlarında onunla çalışabilirler. Model, “komut ayarlama” yoluyla sohbet için zaten optimize edilmiştir. Talimat ayarı, büyük dil modellerini uyarlamak için kullanılır, böylece model kullanıcılardan gelen talimatları doğru bir şekilde anlar, bu da modelleri pratikte kullanırken önemlidir - örneğin bir sohbet uygulamasında.

Teuken-7B'nin iki versiyonu serbestçe kullanılabilir: biri sadece araştırma amaçlı, diğeri ise şirketler tarafından hem araştırma hem de ticari amaçlarla kullanılabilen ve kendi yapay zeka uygulamalarına entegre edilebilen “Apache 2.0” lisanslı versiyon. İki modelin performansı kabaca karşılaştırılabilir, ancak talimat ayarlaması için kullanılan bazı veri kümeleri ticari kullanımı engellemektedir ve bu nedenle Apache 2.0 sürümünde kullanılmamıştır.

İndirme seçenekleri ve model kartları aşağıdaki bağlantıda bulunabilir: https://huggingface.co/openGPT-X

OpenGPT-X Discord Sunucusu teknik geri bildirim, sorular ve uzman tartışmaları için uzman topluluğunun kullanımına açıktır: https://discord.gg/RvdHpGMvB3

Şirketler ayrıca Fraunhofer bilim adamlarının Teuken-7B ile hangi uygulamaların gerçekleştirilebileceğini açıkladıkları ücretsiz demo oturumlarına katılma fırsatına da sahipler. Demo randevuları için kayıt www.iais.fraunhofer.de/opengpt-x-en adresinden yapılabilir.

Detaylı teknik arka plan bilgileri ve kıyaslamaların yanı sıra OpenGPT-X projesinden elde edilen tüm araştırma sonuçlarına genel bir bakış https://opengpt-x.de/en/models/teuken-7b adresindeki proje web sitesinde bulunabilir.

undefined

Burada Teuken-7B-v0.4'ün dil dağılımı gösterilmektedir. Kodun yanında Teuken-7B-v0.4, 23 Avrupa ülkesinden yaklaşık %50 İngilizce olmayan metin ve sadece yaklaşık %40 İngilizce ön eğitim verisi içermektedir (karşılaştırma için, Meta-Llama-3.1-8B %8 İngilizce olmayan veri üzerinde eğitilmiştir). Bu nedenle Teuken-7B-v0.4, bugüne kadar mevcut olan ve yalnızca sürekli ön eğitim veya ince ayar sırasında çok dilli verilerle genişletilen çoğu çok dilli modelden farklıdır.

undefined

Çubuk grafik Teuken-7B-instruct-research-v0.4'ün ARC-, HellaSwag- ve TruthfulQA çok dilli kıyaslama ölçütlerindeki performansını benzer büyüklükteki açık kaynak modellerle karşılaştırmalı olarak göstermektedir. Çubuk, 21 dil üzerinden ortalaması alınan ilgili görev performansını ve ARC-, HellaSwag- ve TruthfulQA genelinde ortalaması alınan model performansını göstermektedir. Seçilen kıyaslamalarda Teuken-7B-instruct-research-v0.4 ortalama olarak diğer tüm modellerin önünde yer almaktadır. ARC ve HellaSwag bireysel kıyaslamalarında Teuken, Salamandra-7b-instruct'ın ardından ikinci sırada, TruthfulQA'da ise Mistral-7B-instruct-v0.3'ün ardından ikinci sırada yer almaktadır.

undefined

Diyagram, İngilizce olmayan bir metni bir dil modeline ait bir belirteçleyici ile işlemek için gereken ek bilgi işlem gücünü göstermektedir (Llama 3'e kıyasla % olarak). Teuken modelleri en az miktarda ek hesaplama gücü gerektirmekte ve dolayısıyla bu çok dilli görevler için en düşük maliyetleri oluşturmaktadır. 
“OpenGPT-X projesinde, son iki yılımızı önde gelen endüstri ve araştırma ortaklarıyla birlikte büyük yapay zeka temel modelleri ve eğitim modelleri için temel teknolojileri araştırarak geçirdik. 'Teuken-7B' modelimizi ücretsiz olarak kullanıma sunarak akademi ve endüstride kullanılmak üzere kamuya açık, araştırmaya dayalı bir alternatif sunabildiğimiz için çok mutluyuz,” diyor Fraunhofer IAIS Direktörü Profesör Stefan Wrobel. “Modelimiz çok çeşitli dillerde yeteneklerini kanıtladı ve mümkün olduğunca çok sayıda insanın modeli kendi çalışmaları ve uygulamaları için uyarlamasını ve geliştirmesini umuyoruz. Bu şekilde, hem bilimsel topluluk içinde hem de farklı sektörlerden şirketlerle birlikte, şeffaf ve özelleştirilebilir üretken yapay zeka çözümlerine yönelik artan talebe katkıda bulunmak istiyoruz.”

 

Katrin Berkler

M.A. Katrin Berkler

İletişim Başkanı

Fraunhofer Akıllı Analiz ve Bilgi Sistemleri Enstitüsü IAIS

Silke Loh

Silke Loh

Halkla İlişkiler Başkan Yardımcısı

Fraunhofer Akıllı Analiz ve Bilgi Sistemleri Enstitüsü IAIS

Monika Landgraf

Monika Landgraf 
Bilim İletişimi Başkanı
ve Başkan Sözcüsü

Fraunhofer-Gesellschaft