Şimdi Ara

Veri Bilimi ile Uğraşan Var mı?

Daha Fazla
Bu Konudaki Kullanıcılar: Daha Az
2 Misafir - 2 Masaüstü
5 sn
37
Cevap
2
Favori
3.776
Tıklama
Daha Fazla
İstatistik
  • Konu İstatistikleri Yükleniyor
0 oy
Öne Çıkar
Sayfa: 12
Sayfaya Git
Git
sonraki
Giriş
Mesaj
  • Bu alana yönelmeye karar verdim. Gelecekte profesyonel olarak bu işi yapmayı düşünüyorum. Aranızda uğraşan var mı birkaç soru soracağım?

    < Bu ileti mini sürüm kullanılarak atıldı >



  • Hiç öyle eşek yüküyle veri üzerinde çalışmadım, bana lazım olmadı. O yüzden de dedim ki bu tüm veri bilimcileri kapsamıyor, herkes dağ gibi veriyle çalışmıyor, hatta genel anlamda görece küçük veri ile çalışılıyor. Bilmek faydalıdır tabi neden olmasın. Ekmek su değil sadece, ekleme yaptım. Niye düşmancıl bir tavır var onu anlamadım ben. Kötü bir şey diyoruz sanki küfür etmişiz gibi reaksiyon veriyorsun.
  • Askerdeyken bir sabah komutanımız "Aranızda Word bilen var mı" diye sormuştu onu hatırladım şimdi.
  • Ben de bunu merak ediyorum. Tezsiz yuksek lisans programlari var ama biraz tuzlu. ITU de 7 haftalik egitim var. katilmayi dusunuyorum. Data science gelecegin meslegi olacak gibi duruyor su an. Turkiye pek yaygin degil sadece Istanbul da buyuk firmalar ariyor fakar piyasada bu isi hakkiyla yapan var mi bilemiyorum? Gerci ilanlara bakinca o yazilan ozelliklere sahip insanlar gercekten var mi merak ediyorum?

    < Bu ileti mobil sürüm kullanılarak atıldı >
  • quote:

    Orijinalden alıntı: phoenix_88

    Ben de bunu merak ediyorum. Tezsiz yuksek lisans programlari var ama biraz tuzlu. ITU de 7 haftalik egitim var. katilmayi dusunuyorum. Data science gelecegin meslegi olacak gibi duruyor su an. Turkiye pek yaygin degil sadece Istanbul da buyuk firmalar ariyor fakar piyasada bu isi hakkiyla yapan var mi bilemiyorum? Gerci ilanlara bakinca o yazilan ozelliklere sahip insanlar gercekten var mi merak ediyorum?
    benim linkedinde gordugum bu sektore istatistik/matematik bilimcileri hakim. aldiklari matematik egitiminin katkisi buyuk. nasil rekabet edilir emin degilim.

    < Bu ileti mobil sürüm kullanılarak atıldı >
  • Sadece istatistik/matematik kesmez.

    Şöyle bir iş yapılması gerekti diyelim: 500TB büyüklüğünde veriyi işleyen bir algoritma implementasyonu yaparak anlamlı sonuçlar çıkarmak. 500TB veriyi Hadoop DFS formatına dönüştürmek gerekli ve onu cloud üzerinde değil el altındaki bilgisayarlarda yapması istendi diyelim, işin devops kısmını bilmesi gerekecek. HDFS üzerinde çalışacak algoritmayı Java veya Scala gibi bir dilde yazması gerekecek. standart bir istatistikçi/matematikçi bu görevlerin altından kalkamaz.

    Linked-in'de profilleri şişiriyorlar. yazılım geliştirici ve eski Google çalışanı Steve Yegge bir makalesinde "CV her tarafına yalan serpiştirilmiş bir belgedir" diyor :)

    İstanbul'daki firmaların veri bilimci ilanları da biraz uçuk. O uçuk ilanlara yüzlerce hatta binlerce kişinin başvurması ise tam bir komedi :)



    < Bu mesaj bu kişi tarafından değiştirildi Tuğkan-0153 -- 9 Ağustos 2019; 2:26:5 >
  • O dediğiniz kodu C++ yazması da mümkün değil mi?
  • phoenix_88 kullanıcısına yanıt
    ITU 'nün 7 haftalık eğitim programını inceledim. Eğitim içeriğinin tümü Internette ücretsiz var. İlk birkaç hafta istatistik, veri madenciliği, iş analitiği , Python ve R gibi genel konular zaten. Sonrası ise O'Reilly başta olmak üzere mükemmel kitapların yazıldığı AI, ML, Big Data konuları yani o kitaplardakinden daha iyi anlatılması sözkonusu değil. Programdaki Hadoop HDFS, MapReduce ve Apache Spark konuları da bir kursda öğrenilecek gibi değil. Hadoop HDFS 7 gün, MapReduce 3 gün, Apache Spark 3 gün , bilgisayarında kurması, konfigürasyonu, çalıştırması (devops ) programları denemesi iterasyonu, sürer. Ben yaptım, oradan biliyorum :)
  • Yapay Zeka’dan İlgili Konular
    Daha Fazla Göster
  • judonisdead J kullanıcısına yanıt
    Veri işleme algoritmasını C++ yapsan da cok çey farketmez cunku işlemin coğu Hadoop DFS formatında 500TB 'lık veri okumada geçiyor; algoritmanın kendisinde değil yani darboğaz Hadoop 'un JVM sürecinde ve o da C++ ile yazılmış olsa yine cok fark etmez cunku onda da darboğaz fiziksel RAM ve harddisk okuma hızında. Fakat Hadoop'ta batch işlemler yaparken işlemleri istediğin sayıda bilgisayara dağıtarak işlemi hızlandırabiliyorsun.
  • Anladım hocam, bilgilendirme için teşekkürler
  • Merhabalar konu hakkında bilgi sahibisiniz galiba.
    Bir kaç sorum olacaktı.

    Apache Hadoop, Spark gibi teknolojileri öğrenmek ile veri bilimi arasındaki ilişki tam olarak nedir.? Yani ben veri bilimi ile ilgilenmesem sadece bu teknolojilerin (spark, storm) nasıl çalıştığını bilsem veri bilimi alanında aranan bir eleman olabilir miyim?

    Bu teknolojileri sadece veri bilimi ile çalışan kişilerin mi öğrenmesi lazım?(gelecekte iş bulma amacıyla söylüyorum)

    Cevap yazarken alıntılarsanız sevinirim, aksi takdirde bildirim gelmiyor

    < Bu ileti mobil sürüm kullanılarak atıldı >
  • Bu veri bilimcilerin çok küçük bir kısmını anlatan bir durum değil mi? Bugün bütün bir ekşi sözlük üzerinde NLP yapmak istesek, toplam raw datanın boyutu yaklaşık 50GB. 10 senelik bitcoin'in blockchain'i 250GB. OpenAI'ın modeli reddit'te 3 upvote ve fazlasını alan yorumlardan oluşuyordu, o da 60GB civarında bir veriymiş. Kaggle (veri bilimci github'ı) şimdiye kadar paylaşılmış en yüksek boyutlu public dataset 80GB gösteriyor, ben dönemlik bir yarışmada 200GB görmüştüm ama o da göğüs MRI görüntüleriydi (çok yüksek çözünürlüklü ve uncompressed olur bunlar). 500TB çok çok çok uçuk miktarda veri demek. Ki onlarla da doğrudan işlem yapılmıyor zaten çoğu zaman (feature extraction, downsample edilir yapılır bir şey o veri bi lokmalık boyuta indirilir).

    Veri biliminin bile ne olduğu üzerine tam bir konsensus yok henüz ama benim gördüğüm en çok aranan kıymetli araçlar şunlar mesela:
    - Python/R ve bunların ilgili veri manipülasyon kütüphaneleri
    - Veri görselleştirme (sırf tableau bildiği için iş alan adam var mesela)
    - İstatistik, gerekirse de yapay öğrenme
    - SQL
    - Veri madenciliği araçları (web crawling daha çok)

    Hatta daha doğrusu, işverenin genel manada veri bilimcide aradığı tek bir özellik var, o da şu: "Kardeşim bende bi veri var, bunu al allem et kallem et bana fayda sağlayacak bir içgörü sun. Hatta iyisi mi, sen bir de bu içgörü sunma işini otomatize et edebiliyorsan mis gibi olalım. Benim veri toplama prosedürümde yanlış görürsen de söyle düzeltelim." Bu kadar. Verinin boyuna, tipine, kalitesine ve şirketin çapına göre bu işlerin yatay ve dikey ölçeği değişebilir. "İşgörü sunma işini otomatize et" kısmı yapay öğrenmeli kısım oluyor herkesin en çok sevdiği ama onun da yeri çok az. Çoğu işletme için böyle şeylere gerek yok. Piramidin en tepesi bir noktada yani o.

    Bunların hepsi biter ondan sonra "Hadoop bilmek de artıdır" olur en fazla. "İşin çok çok büyük kısmı hadoop ile büyük veriyi kontrol etmek" söylemi gerçeği yansıtmıyor bana kalırsa o yüzden.



    < Bu mesaj bu kişi tarafından değiştirildi KaramazovX -- 10 Ağustos 2019; 12:6:29 >




  • KaramazovX kullanıcısına yanıt
    "İşin çok çok büyük kısmı hadoop ile büyük veriyi kontrol etmek" şeklinde bir cümlem var mı?

    Başka söze ve yoruma gerek yok.

    < Bu ileti mini sürüm kullanılarak atıldı >
  • monarch25 M kullanıcısına yanıt
    Hadoop DFS, petabyte'larca veriyi dahi yönetebilen bir dosya sistemi. Programcılık açısından İşletim Sistemi ne ise büyük veri açısından Hadoop onun gibi. Program yazabilmek için önce işletim sistemi ve onun üzerinde derleyici/yorumlayıcı gerektiği gibi büyük veriler için de çeşitli gereçler var, Hadoop onları bir paket olarak sunuyor.

    Ben Hadoop 'u 5GB'lık bir veri işlemek için kullandım, o esnada Hadoop'u 2 farklı bilgisayara kurup 5GB veriyi HDFS formatına aktarıp kendi yazdığım programı o ikisi üzerinde paralel olarak çalıştırdım. Verilerin niteliğini buradan açıklayamam. Veriler özel değil, genel fakat yaptığım işlem özel olduğu için o sebepten açıklayamam. kullandığım 5GB, toplam verilerin cok küçük bir kısmıydı yoksa o alanda 500GB üstünde veri vardı. 500GB veriyi, 75GB kotam olmasa dahi 8Mbit bağlantımla çekmek, onu saklayacak harddisk ayarlamak vs zor ve masraflı olacaktı.

    5GB veriyi Hadoop üzerinde yazdığım bir programla işleyip sonuç aldım fakat bu büyük veri olmasındancok veri algoritmaları nasıl kullanıldığını da görmek açısından önemli. Yani veri 5GB vbeya 5PB olmuş o işin sadece ölçek kısmı. Ben programda MapReduce algoritmasını istege özel şekilde programladım, MapReduce büyük veri işlemede en cok kullanılan alogirtmalardan biri. Örneğin, marketlerden alışveriş yapan milyonlarca kişinin aynı anda en cok hangi ürünleri aldığını ortaya çıkaran bir program yazacaksın diyelim. Elinin altında son 20 yılın tüm market alışveriş verileri olduğunu varsayarak. Verilerin büyüklüğü diyelim ki 1PB. Bu 1PB içinde milyarlarca alışveriş ve içinde trilyonlarca ürün ve adet bilgisi var. Bu trilyonlarca ürün arasından "bir arada en cok satın alınan ilk 10 ürün çifti" ni çıkar dediler diyelim, ne yapacaksın :)

    < Bu ileti mini sürüm kullanılarak atıldı >




  • Yani doğrudan öyle yazmıyor evet de ben öyle anlıyorum o yazı ve devamında gelenlerden. Öteki türlü "Tamam matematik istatistik iyi güzel ama hadoop diye de bir şey var, veri bilimiyle çok alakası yok ama anlatayım süper bir olay" gibi oluyor girinin özeti Neyse öyle değilmiş, açıklanmış oldu.
  • KaramazovX kullanıcısına yanıt
    Hadoop hiç kurup kullandın mı? Bence hiç kurmadın ve kullanmadın cunku onu yapmış olsan veri bilimiyle alakasını görür ve öyle uzaktan çıkarımlar yaparak anlamaya çalışmazdın.

    < Bu ileti mini sürüm kullanılarak atıldı >
  • Hiç öyle eşek yüküyle veri üzerinde çalışmadım, bana lazım olmadı. O yüzden de dedim ki bu tüm veri bilimcileri kapsamıyor, herkes dağ gibi veriyle çalışmıyor, hatta genel anlamda görece küçük veri ile çalışılıyor. Bilmek faydalıdır tabi neden olmasın. Ekmek su değil sadece, ekleme yaptım. Niye düşmancıl bir tavır var onu anlamadım ben. Kötü bir şey diyoruz sanki küfür etmişiz gibi reaksiyon veriyorsun.
  • Cevabınız için teşekkür ederim. Zahmet edip yazmışsınız.

    Benim buradan anladığım veri bilimi işine girilmeyecekse bu teknolojiler ile uğraşmam hobiden daha ileriye gidemez :)

    Peki dağınık sistemlerin geleceği hakkında ne düşünüyorsunuz?

    Bunları neden soruyorum? Staj zamanımda(bilgisayar mühendisliğinden kusa bir zaman önce mezun oldum) Apache Ignite denen bir teknoloji üzerinde çalışmıştım. Bir big data teknoloji idi. Ve gerçekten adamlar yaptıkları işe hayran kalmıştım :D
    Şu sıralar blockchain üzerine sadece okumalar yapıyorum fakat aklım hep bu teknolojilerde? Resmen arafta kaldım :)

    < Bu ileti mobil sürüm kullanılarak atıldı >
  • monarch25 M kullanıcısına yanıt
    Blockchain'in bence en güzel ürünü anonim şekilde para gönderebilmeyi sağlayan Bitcoin benzeri sistemler, adı Dash ya da Zcash olabilir, onlarla hiçbir kişisel bilgin içermeyecek şekilde para gönderebiliyor, alabiliyorsun.

    Dağıtık sistemler bence sürekli gelişecek. Bir düşündüğünde sosyal medya, forumlar, alışveriş siteleri, hemen herşey merkezi sistem ve senin yerine kural koyuyor. Dağıtık sistemde kullanıcılar kuralı koyuyor.

    Apache Ignite 'ı duymadım fakat şimdi baktım veriler bir cluster'daki RAM üzerine dağıtılarak RAM hızında erişim ve verileri RAM üzerinde saklama sistemi. Hadoop'un RAM versiyonu gibi :)

    Bu işlere girmek avantajlı olabilir cunku bu işleri yapan sayısı yani rekabet az. Ayrıca Blockchain finans sektörüyle ilgili old için, ücretler de tatmin edici olur.
  • Konu sahibi, normalde hiç ziyaret etmediği Yazılım Geliştirme bölümüne bu konuyu açtı fakat 4 gündür tek mesajı yok. Merak edip baktım, konuyu açtıktan sonra foruma hiç girmedi mi diye. Girmiş. Fenerbahçe Transferleri üzerine yığınla mesajları var. Bir örnek:
    quote:

    Moses okan cenbrail kötü
    Ferdiyi beğendim
    Defanstan hiç bahsetmiyorum bile


    Yani konu sahibi cantadan çıkma kişilerin ilgi alanı olan futbol vs harcayan biri fakat Veri Bilimi gibi silikon vadisinde dahi ileri düzey sayılan bir konu açıyor..

    Cunku konu sahibi bir Trol. Veri bilimi gibi gelişmiş bir konudan bahseden kaliteli bir Trol ama.

    Konuyu açış seklinden "soru soracağım" dan Trol olduğunu anladım nitekim ilk mesajım bunu yansıtıyor. Fakat bekledim, doğrulamak için. Doğrulandı.



    < Bu mesaj bu kişi tarafından değiştirildi Tuğkan-0153 -- 11 Ağustos 2019; 16:35:7 >




  • quote:

    Orijinalden alıntı: Tuğkan-0153

    Konu sahibi, normalde hiç ziyaret etmediği Yazılım Geliştirme bölümüne bu konuyu açtı fakat 4 gündür tek mesajı yok. Merak edip baktım, konuyu açtıktan sonra foruma hiç girmedi mi diye. Girmiş. Fenerbahçe Transferleri üzerine yığınla mesajları var. Bir örnek:
    quote:

    Moses okan cenbrail kötü
    Ferdiyi beğendim
    Defanstan hiç bahsetmiyorum bile


    Yani konu sahibi cantadan çıkma kişilerin ilgi alanı olan futbol vs harcayan biri fakat Veri Bilimi gibi silikon vadisinde dahi ileri düzey sayılan bir konu açıyor..

    Cunku konu sahibi bir Trol. Veri bilimi gibi gelişmiş bir konudan bahseden kaliteli bir Trol ama.

    Konuyu açış seklinden "soru soracağım" dan Trol olduğunu anladım nitekim ilk mesajım bunu yansıtıyor. Fakat bekledim, doğrulamak için. Doğrulandı.
    Troll falan değilim. Aralarında tartışmaya başladılar, daha yolun başında olan biri olarak hiçbir şey anlamadım konuşulanlardan. Bu yüzden müdahale etmedim. Konudakilere özel mesajla sorularımı zaten soracaktım

    < Bu ileti mini sürüm kullanılarak atıldı >




  • 
Sayfa: 12
Sayfaya Git
Git
sonraki
- x
Bildirim
mesajınız kopyalandı (ctrl+v) yapıştırmak istediğiniz yere yapıştırabilirsiniz.