Şimdi Ara

Nvidia Tesla, 64-bit ARM işlemci çekirdekleri ile melez yapıya bürünecek

Daha Fazla
Bu Konudaki Kullanıcılar: Daha Az
2 Misafir - 2 Masaüstü
5 sn
4
Cevap
0
Favori
352
Tıklama
Daha Fazla
İstatistik
  • Konu İstatistikleri Yükleniyor
0 oy
Öne Çıkar
Sayfa: 1
Giriş
Mesaj




  • Nvidia Tesla, 64-bit ARM işlemci çekirdekleri ile melez yapıya bürünecek


     

     

    Project Denver kod adı altında ARM işlemci çekirdeğine sahip yeni nesil GPU tasarımları geliştiren Nvidia, resmi tanıtımı geçtiğimiz günlerde yapılan ARMv8 mimarisine sahip 64-bit Cortex-A50 serisi yongada sistem tasarımını Tesla ailesine dahil etmeyi planlıyor. Yüksek başarımlı bilgi işlem sistemleri için sunulan Tesla serisi GPGPU odaklı grafik birimlerine ARM çekirdeklerinin ilave edilmesiyle birlikte profesyonellere komple çözüm sunulmuş olacak. Daha çok amaca özel yardımcı işlem kartı olarak görev yapan Tesla çözümlerinde, profesyoneller aynı zamanda sistemi çalıştıracak merkezi işlem birimine de ihtiyaç duyuyor ve tercihlerini Intel'in Xeon ya da AMD'nin Opteron serisinden yana yapıyorlardı.

     

    ARMv6 64-bit tabanlı işlemci çekirdeklerinin Tesla ailesine dahil edilmesiyle birlike x86 zorunluluğu da ortadan kalkmış olacak. Nvidia için önem arz eden bir başka detay ise Microsoft'un kapalı kapılar ardında ARMv8 64-bit için özel bir Windows sürümü geliştiriyor olması. Aynı  TDP yani ısıl tasarım gücü seviyesinde Cortex-A15'e göre 3 kat daha hızlı olan yeni mimari, Linux tabanlı yazılım platformlarına ek olarak Microsoft tarafından da destek görecek. Nvidia'nın Tesla ailesine melez tasarım formunu ne zaman kazandıracağı şu an için bilinmiyor ancak Cortex-A50 serisi işlemcilerin yaygın kullanıma 2014'te geçeceği düşünülürse eğer, Tesla ailesinin de birkaç yıl içerisinde radikal bir değişime uğrayacağını söyleyebiliriz. Rekabete baktığımızda ise AMD tarafı hali hazırda FirePro serisi APU'larını kullanıma sunarken, Intel de Xeon işlemci ailesindeki P serisi entegre grafik birimlerine daha önce hiç olmadığı kadar yatırım yapıyor. Nvidia da ağırlıklı olarak bilimsel hesaplamalarda kullanılan Tesla ailesini ARM ile güçlendirerek iddialı olmayı hedefliyor. 



  • Galiba sonunda önümüze revize edilip edilip çıkartılan ekran kartlarından kurtulucaz.
    Sonunda gerçek Teknoloji gelişimini görücez ama bunu içinde daha 4 yıl beklememiz gerekiyor (bu tasarımlar ev kullanıcıları için değil profesyoneller için oluyor)

  • ARM64'ün A15'den %20-30 civarında hızlı olması bekleniyor. 20nm faln hikaye daha. Glofo 20nm'de fazla oyalanmayıp 14nm 'ye inecekmiş. Bende arka bahçede fason üretime başlayacam. Glofo için belki 2015'den itibaren doğru düzgün karlılık projeksiyonları var.

    Denver'a uygun işletim sistemi yazılım ekosistemi yok. Neyin neye göre nasıl çalışacağını mevcut hiçbi program bilemez. Anca özel / ilave compiler directive leri ile mevcut program bazı değişikliklere gidilip yeniden derlenirse çalışıp belki performans vermeye başlayabilir. ACMP benzeri yapılarda, neyin nerede çalışacağına işletim sisteminin düzgün karar verebilmesi için özel değişiklikler gerekir. 2 farklı işlemci grubu olacağından( fat/latency core grubu, small/throughput grubu), çalışacak programın hem işletim sistemine bilgi vermesi lazım, "abicim ben seri ve latency duyarlı kod çalıştırmak üzereyim, lütfen bunu fat/latency grubu çekirdekle çalıştır" yada "birader ben paralel yük çalıştıracam, lütfen bunu small/throughput grubunda çalıştır" demesi lazım. İşletim sistemi de, gelen bu tür taleplere göre, düşük seviyede yani, hangi kodun nerede çalışacağını falan ayarlaması lazım. Yoksa serial/latency duyarlı bi kodu alıp paralel çalışmak için tasarlanmış yavaş/küçük olan çekirdeklerde çalıştırmaya kalkarsa mal gibi çakılır sistem. Kısaca Denver gibi bi yapıyı çalıştıracak işletim sistemi veya bundan şimdilik düzgün faydalanacak bişeyler yok. Çok dolaylı olarak var. Bu çıkana kadar da kimsenin elinin armut topluyor olacağını sanmıyoruz. fat/latency = bizim bildiğimiz anlamdaki çekirdek yapısı (CPU'dakine benzer çekirdek), büyük / düşük gecikme süresi olan / gelecek işlemleri tahmin etmeye çalışan yapısı olan. small/throuhput = küçük/basit yapıda olan/ paralel iş yükü için optimize edilmiş / gelecek tahmini yapmayan / GPU'daki paralel işlem birimine benzeyen yapı.

    Kimse şimdiden bi x86 + tesla'nın performansına göre ne kadar performans verecek fikri bile yok. Çünkü Denver büyük çaplar için düşünülüyor, aynı board üstündeki kartlar arası iletişim, farklı kabinler arası iletişim gibi şeyler de var. Superbilgisayar alanında, kartlar / boardlar /kabinler arası için de zaten farklı topolojiler v.s var(Cray'in Gemini / Aries interconnectleri vs. gibi). Ayrıca network topolojiler de var 5d torus, fat tree faln gibi. Nvidia hepsine birden göz dikmiş durumda.

    AMD'nin durumu zorken, zaten buna benzer alanlarda hemen hiç olmamışken bu habere direk konu olmaması lazım. Dahil edilecekse eğer 7970 ile dahil edilmesi lazım. Gerçi dünya üzerinde rüştünü ispat etmiş olarak bi teke Degima Cluster'ında var. i5 7970 şeklinde çalışan bi ev yapımı süperbilgisayar Degima Cluster'ı. AMD'nin belki umudu vardı, Tesla 2070 / 2090 gibi kartların yeirne OpenCL ile 79xx kartlar kullanılır diye. Fiyat performans açısından inanılmaz ötesi avantaja sahip 79xx bu alanda. OpenCL ile CUDA arasında en son bildiğim %10 lar civarında perf farkı vardı, o da FFT ile alakalı hesaplamalar için. Aynı işi OpenCL 'de yapmak biraz daha zor ona bişey demiyorum ama bi 7970'in fiyatı ile Tesla 2090'ı karşılaştırırsak
    arada %20 perf farkı oluşsa bile 7970 yine çok avantajlı oluyor. Gerçi bu yola başvuracakların dünyada belki 1-2 örneği var. AMD bu açıdan çok geç kaldığı için fena kefaret ödemekte. 7970 dışında fiyat performans ürünü olacak ve hesaplama amacı ile kullanılabilecek bi ürünü yok zaten. Bu tür HPC alanı için ARGE için imkanı da yok artık. Zaten 7970'in hesaplama özellikleri kaldırılıp 8xxx serisine çevrilecek. AMD APU'lar ile bu yüzden Nvidia'nın HPC hedef alınarak peşinden koştuğu Denver / Echelon pek alakalı şeyler değil. AMD'nin APU ları bi şekilde yüksek performanslı hesap yapabilecek şekilde değiştirme amacı yok şimdilik önce belini doğrultması lazım. Ama HSA bu konuda yardımcı olabilirdi, yeteri ARGE ve destek için zman ve parası olsaydı. Bu yüzden yani HSA çok yavaş ilerlerken (ilerlediğini görmedik daha) ve maddi sorunları varken bu alanda yok.

    Intel'in HPC için ürettiği şeyler Xeon Phi serisi olan kartlar, işlemciler değil. Phi Larrabe'den bozma eskiden Knights Corner diye isimlendirilen hızlandırıcı hesap kartı. İçi basit yapıdaki ama SIMD uniteleri olan x86 işlemcilerle dolu. Bunun da daha tam olarak bi numarasını görmedik ama fena olmayacak gibi. Hatta ilerde farklı olasılıklara da gebe olabilir (Bütün Phi kartında bütün işlemciler aynı, mesela Knights Corner 64 tane P54C x86 çekirdeği içerek idi. P54 bildiğimiz eski pentiumlara benzeyen basit yapılı bi şekirdek. Kartın kendisi PCI-ex slotuna takılıyor, kendisi x86 temelli bi kart olduğu için Linux temelli bi işletim sistemi çalıştırıyor. PCI-ex üstünden takıldığı anakartdaki Xeon işlemci ile iletişim kuruyor. bu varolan 64 çekirdekten 1-2-4 tanesi işletim sistemini çalıştırıyor, gerekli interrupt / I/O girdi çıktı işlemlerini faln yapıyor, geriye kalan 50-60 çekirdek hesap işlemi yapıyor. Eğer ilerde Intel ACMP benzeri bi yapıya geçmek isterse bu dediğim işletim sistemini çalıştıracak olan çekirdekleri yukarlarda yazdığım fat/latency tarzı hale getirebilir. İşletim sistemi mesela 4 tane Xeon çekirdeğinde, Hesaplamalar da geri kalan 50 çekirdekde yapılır. Yine takılı olduğu anakartın PCI slotundan, tkaılı olduğu anakarttaki ANA Sürücü işlemci ile iletişim kurabilir. Bu durumda tıpkı Denverın amacını güttüğü peşinden koştuğu bi yapıya bütünmüş olur, hemde x86 uyumunu koruyarak. Gool!!! ).

    Bi de daha ne nane olduğunu bilemediğimiz, Haswell ile başlayacak olan AVX2 maceramız var. Şimdiye kadar SIMD dediğimiz Vector yapıları özel kodlama gerektirmekteydi. Auto-vectorization denilen şeyler işe yaramıyordu. Yani bi program var, programda özel SIMD kodu kullanılmamış. Bunu ister SSE2 ile yeniden derle, istersen AVX ile yeniden derle, aralarında çok az bi fark oluşuyordu. Programın içinde programı kodlarken SIMD komutlarının özel olarak kullanılması programın o şekilde tasarlanması gerekiyordu. AVX2'de GPU'lardakine benzer olarak gather/scatter diye bişey olacak. Şimdiki Vector işlemleri 2 kümeyi birbiri ile işleme sokmak şeklinde. Sen diyorsunki 1. küme bunlar, 2. küme bunlar, bunları birbiri ile çarp. Burası hızlı , ama daha fazla küme otomatik olarak adreslenmesine imkan vermiyor mevcut yapılar. AVX2 ile "1'den 8'e kadar olan kümeleri seç, verileri yerleştir (scatter), sırasıyla ikişeyli olarak çarp (1 ve 2. küme 3 ve 4. küme gibi, sonra sonuçları şu gruba yaz (gather))" diye isimlendirilen işlemler gerçekleştirilecek. Bunlar aynı zmanda Integer işlemler için de olabilecek.

    Mevcut Intel işlemcilerde, mesela 4 çekirdekli 4.5 ghz 3570k'nın 125-130 GFLOP gibi kapasitesi var, CPU SIMD olarak(GPU olarak HD4000'in 166-295 GFLOP arası). AMD A10 5800K'daki GPU'nun 615 GFLOP işlem kapasitesi var. Haswell'de sadece bu AVX2 SIMD uniteleri sayesinde, mesela 3 ghz hızında 8 çekirdekli bi Xeon neredeyse 1 TFLOP seviyesinde performans verebilir konumda olacak. GPU olmadan, sadece CPU ile bu korkunç bi rakam. Tesla 2070'i belki geride bırakabilir latency avantajı yüzünden. Bu yüzden AVX2'nin neler getirebileceğini kimsenin küçümsememesi gerekir.

    Bundan bilmem kaç zman öncesinden bakınca Echelon bana mantıklı geliyordu. Şimdi ise dudak büktürtüyor. Gelecek için ise bi sürü farklı olasılık var (50 GFLOP / W performans veren Tile mimarili çipler gibi) ve Nvidia'nın kaybettiği zmanı da düşünürsek bazı açılardan hiçde iyi olmayabilir dedirtiyor (x87 / IEEE 754 FPU için kaybettiler zamanı).

  • 
Sayfa: 1
- x
Bildirim
mesajınız kopyalandı (ctrl+v) yapıştırmak istediğiniz yere yapıştırabilirsiniz.