Şimdi Ara

DeepSeek, yeni modeliyle yapay zekaların eğitim maliyetini daha da aşağı çekebilir

Daha Fazla
Bu Konudaki Kullanıcılar: Daha Az
2 Misafir - 2 Masaüstü
5 sn
9
Cevap
0
Favori
694
Tıklama
Daha Fazla
İstatistik
  • Konu İstatistikleri Yükleniyor
Öne Çıkar
4 oy
Sayfa: 1
Giriş
Mesaj
  • DeepSeek, yeni modeliyle yapay zekaların eğitim maliyetini daha da aşağı çekebilir
    Geçtiğimiz yılın başında çıkardığı DeepSeek-R1 ile yapay zeka dünyasında dengeleri değiştiren DeepSeek, çok yakında yine deprem etkisi yaratacak bir modelle karşımıza çıkabilir. Çin merkezli şirketin yapay zeka alanında çığır açacak yeni bir model üzerinde çalıştığı bir süredir konuşuluyordu. Bu hafta DeepSeek tarafından yayımlanan bir makale, bu yeni modelde bizi ne gibi yeniliklerin beklediğini daha açık şekilde ortaya koydu. Görünen o ki R1 gibi DeepSeek'in yeni modeli de yapay zekaların eğitilmesi konusunda sektöre yeni kapılar aralayacak.



    DeepSeek tarafından paylaşılan makalede, “Manifold-Constrained Hyper-Connections” (mHC) adı verilen yeni bir derin öğrenme mimarisi tanıtılıyor. DeepSeek'in kurucusu olan Liang Wenfeng’in yanı sıra Zhenda Xie, Yixuan Wei ve Huanqi Cao'nun da imzasını taşıyan çalışma, büyük sinir ağlarında (neural network) eğitim sırasında ortaya çıkan kararsızlık ve ölçeklenme problemlerini azaltmayı hedefliyor. Araştırmacılara göre mHC, mevcut yaklaşımlara kıyasla hem daha tutarlı bir eğitim süreci sunuyor hem de ciddi ek hesaplama maliyetleri oluşturmadan daha büyük modellere ölçeklenebiliyor. Bu da, büyük dil modellerinin eğitim maliyetlerini düşürmeye yönelik önemli bir adım olarak görülüyor. Hatırlarsanız DeepSeek-R1'in en çok ses getirdiği nokta da bu konudaki başarısıydı.



    DeepSeek’in geliştirdiği bu mimari, temellerini ByteDance araştırmacılarının 2024 yılında tanıttığı “hyper-connections” (hiper bağlantılar) yaklaşımından alıyor. Bu yaklaşım, günümüzde pek çok büyük dil modelinin temelini oluşturan ResNet mimarisinde bilginin katmanlar arasında doğrudan aktarılmasına imkân tanıyan yapıyı genişleterek, sinyallerin ağ içinde daha tutarlı biçimde ilerlemesini sağlamayı amaçlıyordu. Ancak ByteDance’in önerdiği yapı, özellikle çok büyük modellerde ciddi bellek yükü oluşturması nedeniyle pratikte ölçeklenme sorunları yaratıyordu. DeepSeek’in çalışması, bu noktada devreye girerek söz konusu yapıyı daha uygulanabilir hâle getiriyor.



    Ayrıca Bkz.Sosyal medya sandığımız kadar toksik değil: Sorun küçük ama gürültülü bir azınlık



    DeepSeek Yeni Modelini Bu Mimariyle Geliştiriyor



    mHC mimarisinin en önemli farkı, katmanlar arası doğrudan bilgi akışını rastgele genişletmek yerine, bu akışı belirli matematiksel kurallar çerçevesinde tanımlanmış bir uzay (manifold) içinde tutması. Bu sayede “identity mapping” olarak adlandırılan ve sinir ağlarında sinyallerin yüzlerce katman boyunca bozulmadan iletilmesini sağlayan kritik özellik yeniden kazanılıyor. Araştırmacılar, bu kısıt sayesinde sinyallerin ne kaybolduğunu ne de kontrolden çıkarak patladığını; dolayısıyla eğitim sürecinin çok daha stabil hâle geldiğini belirtiyor. mHC mimarisi; 3 milyar, 9 milyar ve 27 milyar parametreli modeller üzerinde denendi ve ciddi bir ek hesaplama yükü oluşturmadan sorunsuz şekilde ölçeklenebildiği gösterildi.



    DeepSeek tarafından paylaşılan bu tür teknik makaleler, yaklaşan yeni modelin habercisi olarak görülüyor. Liang Wenfeng, daha önceki modelleri yayınlamadan önce de benzer makaleler paylaşmıştı. Bu yüzden yeni modelin de bu mimari üzerine kurulu olarak geleceği düşünülüyor. Beklentileri epey yükselten bu modelin tam olarak ne zaman tanıtılacağı henüz kesinleşmiş değil. Ancak 17 Şubat'tan önce tanıtılmış olacağı düşünülüyor.




    Kaynak:https://www.perplexity.ai/discover/tech/deepseek-unveils-new-mhc-archi-4tGdvF8rRWSvTZNFo5TE8w







  • Pek dikkat çekmemiş forumda ama bu gelişme yapay zekalarda sıçrama yapacak gibi. 2026 güzel bir yıl olacak...

  • Devlet olarak bu firmayı alsak millileştirsek ne iyi olur.
    hiç olmazsa yapay zeka yarışının içinde oluruz

    < Bu ileti mini sürüm kullanılarak atıldı >
    _____________________________
  • rfve kullanıcısına yanıt

    Çin'den çıkan bir firmaya Çin neden böyle bir şey için izin versin? Zaten kendilerince milli bir ürün ve millileştirmişler. Adamlar onca ambargoya rağmen bütün zorluklarıyla böyle iş başarmışlar neden sana bunu versinler ki? Üstelik Batı eksenli ABD'ye bağlı bir ülkeye yani düşman sayılan bir ülkeye (Çin açısından, ticari anlaşmalar olarak) çok da yakınken.


    < Bu ileti mobil sürüm kullanılarak atıldı >
    _____________________________
  • DeepSeek'i süpernovaya yani büyük ve ani bir parıldamayla sönen bir olaya benzetip küçümseyenler gördüm. Ama çok yanlış yapıyorlar. Çinli oyuncuları ve Çin'i küçümsemek ölümcül bir hata. Daimi bir innovasyon akışıyla mucizeler yaratabilirler.


    Zaten söz konusu analoji de dandik ve cahilce. Süpernova arkasında evrendeki en güçlü objeleri bırakır: Nötron yıldızları ve karadelikler.


    Onları görememen ve ufak olmalarına aldanman bir uzay gezgini olarak yapabileceğin son hata olur.

    _____________________________
    We're beyond sympathy at this point, we're beyond humanity.
  • Kartal Göz kullanıcısına yanıt
    Neden olmasın bence gayet olabilir? Paraya bakar sadece. Üstelik zaten deepseek açık kaynak kodlu.
    bizim mühendisler alıp Nsosyal gibi yerli ve milli diye yapabilirler.

    Kısıtlı çipler ile böyle eğitilen ve böyle çalışan deepseek Nvidia h100 ler b200 ler gibi yeni nesil çipler ile neler yapar kim bilir...

    Tabi bu başlangıç olmalı ve üzerine koya koya tamamen yerli yapay zeka, genel yapay zeka ve Süper yapay zeka şeklinde kararlılıkla ilerlenmeli.



    < Bu mesaj bu kişi tarafından değiştirildi rfve -- 6 Ocak 2026; 18:28:57 >
    < Bu ileti mini sürüm kullanılarak atıldı >
  • rfve kullanıcısına yanıt

    Neden olsun? Bazı şeyler paraya bakmaz, stratejiktir. Askeri teknolojiler gibi. (Bkz: F35 krizi, bkz: nükleer silahlar) Yapay zeka da hem sivil hem de askerî teknolojilerde kullanılabilecek bir alan ama onu özel yapan sadece bu değil. Sivil kullanımlar için işin içinde ekonomik boyutu var, gelecekte kimin patron olduğunu gösterecek, hangi ülkelerin lokomotif olduğunu gösterecek. Eh dünyada da bir ekonomik savaş var mı var. Nasıl ki ABD Nvidia çip teknolojilerinin ve AI'ın kendisinde kalmasını istiyorsa diğerleri de özellikle de Çin'de aynı şekilde ister. Çin sadece elindeki imkanlarla bunu yapabilmiş. ABD gibi olanakları olsa o da büyük şeyler başarırdır. Kimse tırnaklarıyla kazıdığı şeye öyle gel parasını ver ortak ol demez, anca sermayeye ve ticarete çok muhtaç olması lazım ama Çin böyle muhtaç bir ülke değil. Sizin örnek şuna benziyor. Bizim çip teknolojilerimizi geliştirmemiz lazım, napalım? Nvidia'ya ortak olalım, satın alalım, teknoloji transferi olsun. Böyle bir şey mümkün değil. Elin conisi böyle bir şeye izin vermez çünkü sivil kullanımlar için bile olsa çip teknolojisi stratejiktir ve ekonomiyle dolayısıyla ekonomik güçle yakından ilişkilidir. Çip örneğini abartı bulduysanız AI örnekleri de verilebilir. Kimse gel Gemini, ChatGPT, Grok'u kaynak kodlarıyla alogirtmasıyla al demez. Derse de muhtemelen istediği fiyat ederinin üstünde filan olur, ülkemizin ödeyip ödeyemeyeceği şüpheli bir rakam olur.


    Deepseek açık kaynaklıysa o zaman bunu Türkiye'de yapsın, bu kadar kolaysa neden Çinli'den meden umulsun ki, zaten büyük ihtimal satmayacak olan Çin'den, haklı olarak tabii.


    Bence de AI konusubda atılımlarımız olsa iyi olur ama sadece şunu demeye çalışıyorum: kimse hayvan gibi AR-GE yaptığı stratejik ürün ve hizmetlerini öyle kolay kolay satmaz. Altın yumurtlayan tavuğun satılması gibi bir şey bu çünkü. Ülkelerin politikaları ve yasaları bile bunlara göre şekilleniyor. Bkz: ABD'deki CHIPS yasası.




    < Bu mesaj bu kişi tarafından değiştirildi Kartal Göz -- 7 Ocak 2026; 10:7:16 >
    < Bu ileti mobil sürüm kullanılarak atıldı >
    _____________________________




  • Yapay Zeka’dan İlgili Konular
    Daha Fazla Göster
  • Nat Alianovna kullanıcısına yanıt
    Belki "pair-instability supernova" dır Natalia hocam :)

    Şaka bi yana, ben de Çilnilerin bu konuda çok zehir olacağını düşünüyorum. Zaten bu adamlar matematik, bilim konuları için yaratılmış, otistik (savant tipi) bir toplum gibi geliyor bana. Son 25 yılda yaptıkları atılım inanılmaz seviyede.

  • 
Sayfa: 1
- x
Bildirim
mesajınız kopyalandı (ctrl+v) yapıştırmak istediğiniz yere yapıştırabilirsiniz.