Apple ve Nvidia, Yapay Zeka Tepki Sürelerini Hızlandırmak İçin İşbirliği Yapıyor -

Apple ve Nvidia yakın zamanda büyük dil modelleri (LLM) çıkarım hızını artırmayı ve optimize etmeyi amaçlayan bir iş birliğine gittiklerini duyurdu.

Geleneksel otoregresif LLM çıkarımının verimsizliklerini ve sınırlı bellek bant genişliğini ele almak için Apple'ın makine öğrenimi araştırmacıları, 2024'ün başlarında "ReDrafter" (Yinelenen Taslak Modeli) adı verilen spekülatif bir kod çözme tekniğini yayınladı ve açık kaynaklı hale getirdi.

GitHub'dan ReDrafter model diyagramı. — _{Resim kaynağı: GitHub}

Şu anda ReDrafter, Nvidia'nın ölçeklenebilir çıkarım çözümü “TensorRT-LLM”ye entegre edildi. Bu çözüm, özellikle LLM çıkarımını optimize etmek ve “Medusa” gibi spekülatif kod çözme yöntemlerini desteklemek için tasarlanmış, “TensorRT” derin öğrenme derleyici çerçevesine dayalı açık kaynaklı bir kütüphanedir.

Ancak ReDrafter'ın algoritmaları daha önce kullanılmayan operatörleri kullandığından, Nvidia yeni operatörler ekledi veya mevcut olanları herkese açık hale getirdi ve bu da TensorRT-LLM'nin karmaşık modellere ve kod çözme yöntemlerine uyum sağlama yeteneğini önemli ölçüde artırdı.

GitHub'dan TensorRT-LLM entegrasyon diyagramı. — _{Resim kaynağı: GitHub}

ReDrafter'ın büyük dil modelleri (LLM) çıkarım sürecini üç temel teknoloji aracılığıyla hızlandırdığı bildirilmektedir:

RNN Taslak Modeli
Dinamik Ağaç Dikkat Algoritması
Bilgi Damıtma Eğitimi

RNN Taslak Modeli ReDrafter'ın temel parçasıdır. LLM'nin gizli durumlarına dayalı olarak bir sonraki olası kelime dizisini tahmin etmek için Tekrarlayan Sinir Ağı (RNN) kullanır. Bu, zamansal bağımlılıkları yakalar ve tahmin doğruluğunu artırır.

Bu modelin çalışma şekli şöyledir: LLM metni oluştururken önce bir başlangıç kelimesi oluşturur, ardından RNN Taslak Modeli bu kelimeyi ve LLM'nin son katmanındaki gizli durumunu girdi olarak kullanarak ışın araması gerçekleştirir ve birden fazla aday kelime dizisi oluşturur.

Bir seferde bir kelime üreten geleneksel otoregresif LLM'lerin aksine, ReDrafter, RNN Taslak Modeli'nin tahminleri aracılığıyla her kod çözme adımında birden fazla kelime üretebilir ve bu sayede LLM'nin doğrulama için çağrılması gereken sefer sayısını önemli ölçüde azaltarak genel çıkarım hızını iyileştirir.

RNN Taslak Model sürecini gösteren diyagram. — _{Resim kaynağı: arXiv}

Dinamik Ağaç Dikkat Algoritması ışın arama sonuçlarını optimize eden bir algoritmadır.

Işın arama süreci sırasında, genellikle aynı başlangıca sahip olan birden fazla aday dizi üretilir. Dinamik Ağaç Dikkat Algoritması bu ortak başlangıçları belirler ve bunları doğrulanması gereken kelimelerden kaldırarak LLM'nin işlemesi gereken veri miktarını azaltır.

Bazı durumlarda, bu algoritma doğrulanması gereken kelime sayısını %30 ila %60 oranında azaltabilir. Bu, Dinamik Ağaç Dikkat Algoritması ile ReDrafter'ın hesaplama kaynaklarını daha verimli kullanabileceği ve çıkarım hızını daha da artırabileceği anlamına gelir.

Dinamik Ağaç Dikkat Algoritmasını gösteren diyagram. — _{Resim kaynağı: NVIDIA}

Bilgi Damıtma bilgiyi büyük, karmaşık bir modelden (öğretmen modeli) daha küçük, daha basit bir modele (öğrenci modeli) aktaran bir model sıkıştırma tekniğidir. ReDrafter'da, RNN Taslak Modeli, bilgi damıtımı yoluyla LLM'den (öğretmen modeli) öğrenen öğrenci modeli olarak işlev görür.

Ayrıntılı olarak, damıtma eğitim süreci sırasında, büyük bir dil modeli (LLM), bir sonraki olası kelimeler için bir dizi "olasılık dağılımı" sağlar. Geliştiriciler, bu olasılık dağılımı verilerini bir Yinelemeli Sinir Ağı (RNN) taslak modeli eğitmek için kullanır, ardından iki modelin olasılık dağılımları arasındaki farkı hesaplar ve bu farkı optimizasyon algoritmaları aracılığıyla en aza indirir.

Bu süreçte RNN taslak modeli sürekli olarak LLM'nin olasılık tahmin modellerini öğrenir ve bu sayede pratik uygulamalarda LLM'ye benzer metinler üretebilir.

Bilgi damıtma eğitimi sayesinde, RNN taslak modeli dilin kurallarını ve kalıplarını daha iyi yakalar ve böylece LLM'nin çıktısını daha doğru bir şekilde tahmin eder. Daha küçük boyutu ve daha düşük hesaplama maliyeti nedeniyle, sınırlı donanım koşulları altında ReDrafter'ın genel performansını önemli ölçüde iyileştirir.

ReDrafter'ın NVIDIA H100 GPU'daki performans iyileştirmesini gösteren grafik. — _{Resim kaynağı: Chovm Cloud Geliştirici Topluluğu}

Apple'ın kıyaslama sonuçları, NVIDIA H100 GPU üzerinde ReDrafter'ın TensorRT-LLM'si ile entegre edilmiş milyarlarca parametreli üretim modeli kullanıldığında, Greedy Decoding tarafından saniyede üretilen token sayısının 2.7 kat arttığını gösteriyor.

Ayrıca, Apple'ın kendi M2 Ultra Metal GPU'sunda ReDrafter 2.3 kat çıkarım hızı iyileştirmesi elde etti. Apple'ın araştırmacıları, "LLM'ler üretim uygulamalarını yönlendirmek için giderek daha fazla kullanıldıkça, çıkarım verimliliğini artırmak hesaplama maliyetlerini etkileyebilir ve kullanıcı tarafındaki gecikmeyi azaltabilir." dedi.

ReDrafter'ın Apple'ın M2 Ultra Metal GPU'sundaki performans iyileştirmesini gösteren grafik. — _{Kaynak Resim: Apple}

ReDrafter'ın çıktı kalitesini korurken GPU kaynaklarına olan talebi azalttığını, böylece LLM'lerin kaynak kısıtlı ortamlarda bile verimli bir şekilde çalışmasını sağladığını ve LLM'lerin çeşitli donanım platformlarında kullanılması için yeni olanaklar sağladığını belirtmekte fayda var.

Apple bu teknolojiyi halihazırda GitHub'da açık kaynaklı hale getirdi ve gelecekte bundan faydalanacak şirketler arasında muhtemelen sadece NVIDIA olmayacak.

Kaynaktan ifan

Yasal Uyarı: Yukarıda belirtilen bilgiler Chovm.com'dan bağımsız olarak ifanr.com tarafından sağlanmaktadır. Chovm.com, satıcının ve ürünlerin kalitesi ve güvenilirliği konusunda hiçbir beyan ve garanti vermez. Chovm.com, içeriğin telif hakkıyla ilgili ihlallere ilişkin her türlü sorumluluğu açıkça reddeder.

En Yeni Haberler

Apple ve Nvidia, Yapay Zeka Tepki Sürelerini Hızlandırmak İçin İşbirliği Yapıyor

Yazar hakkında

ifan

Leave a Comment

Yazar hakkında

ifan

İlgili Mesajlar

Leave a Comment