Şimdi Ara

Neden yapay zekalar PDF okumakta bu kadar kötü?

Daha Fazla
Bu Konudaki Kullanıcılar: Daha Az
2 Misafir - 2 Masaüstü
5 sn
10
Cevap
1
Favori
893
Tıklama
Daha Fazla
İstatistik
  • Konu İstatistikleri Yükleniyor
Öne Çıkar
7 oy
Sayfa: 1
Giriş
Mesaj


  • 1993 yılında Adobe tarafından geliştirilen PDF formatı, belgelerin her cihazda aynı görünmesini sağlama vaadiyle dijital dünyanın en kalıcı standartlarından biri haline geldi. Otuz yılı aşkın süredir kamu kurumlarından akademiye, hukuk bürolarından şirket arşivlerine kadar milyarlarca belge bu formatta üretiliyor. Ancak bugün aynı özellik, yapay zeka sistemleri için ciddi bir engele dönüşmüş durumda.



    Sorunun temelinde basit ama kritik bir gerçek yatıyor. PDF, bir metin formatı değil, bir sayfa çizim talimatıdır.



    HTML gibi formatlar metni mantıksal bir sırayla saklarken PDF, her harfi ve her öğeyi sayfa üzerindeki belirli koordinatlara yerleştirir. Yani dosya, “önce şu başlık gelir, ardından paragraf başlar” gibi yapısal bir hiyerarşi taşımaz. Bunun yerine “şu noktaya şu karakteri çiz” komutları içerir. İnsan gözü için kusursuz olan bu sistem, metni satır satır ve soldan sağa işlemeye alışkın büyük dil modelleri için karmaşık bir bulmacaya dönüşür.



    Editoryal yapıyı göremiyorlar



    Yapay zekaların PDF’lerde zorlanmasının en önemli nedeni editoryal yapıyı doğrudan görememeleri.



    Bir insan için iki paragraf arasındaki boşluk yeni bir düşünceyi, girinti alt başlığı, büyük punto bir başlığı ifade eder. Ancak PDF dosyasında bu anlam katmanları açıkça işaretlenmez. Model, başlıkla gövde metnini, dipnotla ana paragrafı ya da çok kolonlu akademik makalelerdeki metin akışını ayırt etmekte zorlanabilir.



    Bu durum pratikte ciddi hatalara yol açar. Çok kolonlu bir bilimsel makale soldan sağa düz okunursa anlamsız bir metin ortaya çıkar. Dipnotlar ana metne karışabilir. Tablolar satır ve sütun bütünlüğünü kaybedebilir. Sonuçta model yanlış özetler üretebilir veya eksik bağlamdan dolayı “halüsinasyon” olarak adlandırılan uydurma içerikler oluşturabilir ve oluşturuyor.



    OCR her zaman çözüm değil



    PDF içindeki metin bazen doğrudan seçilebilir değildir. Özellikle taranmış belgelerde metin aslında bir görüntüdür. Bu durumda devreye OCR (Optik Karakter Tanıma) girer. Ancak OCR araçları da sınırsız değildir.



    Çok kolonlu sayfalar, karmaşık tablolar, grafikler, el yazıları, diyagramlar ve formlar OCR sistemlerini zorlar. Yapay zeka asistanları PDF’yi işlerken birden fazla aracı art arda kullanabilir. Kimi zaman görsel-dil modelleriyle yeniden okumaya çalışır, kimi zaman metni özetlemeye yönelir. Bu süreç hem hesaplama maliyetini artırır hem de tutarsız sonuçlar doğurabilir.



    Üstelik modeller tarihsel olarak PDF’ler üzerinde yoğun biçimde eğitilmedi. Oysa yüksek kaliteli içeriklerin önemli bir bölümü - akademik makaleler, ders kitapları, kamu raporları - PDF formatında saklanıyor. Son dönemde geliştiriciler bu açığı kapatmaya başladı.



    PDF’yi çözmeye çalışan yeni modeller



    Neden yapay zekalar PDF okumakta bu kadar kötü?
    Allen Institute for AI tarafından geliştirilen olmOCR adlı görsel-dil modeli yaklaşık 100 bin PDF üzerinde eğitildi. Amaç, başlıkları, tabloları ve sayfa düzenini daha doğru tespit edebilmekti. Benzer şekilde Hugging Face araştırmacıları milyarlarca PDF’den oluşan bir veri seti oluşturarak zorlu belgeleri işlemek üzere özelleştirilmiş modeller geliştirdi ve trilyonlarca token’ı model eğitimine kazandırdı.



    Ayrıca Bkz.Nvidia, yeni nesil Vera Rubin AI platformu için ilk teslimatlara başladı



    PDF çözümlemeye odaklanan Reducto ise çok aşamalı bir yaklaşım benimsiyor. Sistem önce sayfayı bölümlere ayırıyor. Eğer tablo tespit edilirse ayrı bir tablo modeli devreye giriyor, grafik algılanırsa eksen ve açıklamaları farklı modeller işliyor. Ardından görsel-dil modeli çıktıyı kontrol ederek hataları azaltmaya çalışıyor. Bu yöntem özellikle finans ve hukuk gibi yüksek doğruluk gerektiren alanlarda dikkat çekiyor.



    Buna rağmen sorun tamamen çözülmüş değil. İç içe geçmiş PDF dosyaları, el yazısıyla düzenlenmiş belgeler, karmaşık yasal metinler ve alışılmadık tasarımlar halen modeller için ciddi sınamalar yaratıyor.



    Sorun PDF’de mi, yapay zekada mı?



    Bu noktada tartışma ikiye ayrılıyor. Bazı girişimler PDF’nin AI çağına uygun olmadığını savunuyor. İsrailli girişim Factify, büyük dil modelleriyle doğal biçimde çalışabilecek yeni bir belge formatı geliştirmeye odaklanmış durumda. Şirket, mevcut PDF yapısını kapalı ve verimsiz buluyor ve akıllı, bağlantılı belgeler için sıfırdan tasarım gerektiğini öne sürüyor.



    Diğer tarafta ise PDF savunucuları var. PDF Association Başkanı Duff Johnson’a göre sorun formatta değil, araçlarda. PDF’nin temel gücü hangi cihazda, hangi tarihte açılırsa açılsın aynı görünümü koruması. Mühendislik şirketleri, hukuk büroları ve kamu kurumları için bu tutarlılık vazgeçilmez.



    Gerçek dünyada ise tablo bu kadar net değil. En nihayetinde PDF, insan merkezli bir standart olarak tasarlandı. Büyük dil modelleri ise lineer metin akışı üzerinden eğitildi. Bugün yaşanan sorun, iki farklı tasarım felsefesinin çarpışmasından kaynaklanıyor. Kısacası yapay zekaların PDF okumakta zorlanmasının nedeni zekalarının yetersiz olması değil, metni temsil etme biçimi ile metni anlama biçimi arasındaki uyumsuzluk.




    Kaynak:https://www.techspot.com/news/111485-humble-pdf-becoming-problem-ai.html
    Kaynak:https://www.theverge.com/ai-artificial-intelligence/882891/ai-pdf-parsing-failure







  • O kadar yapabildikleri işin yanında iki sütunlu, grafikli vb bir pdften dogru formatı/bağlamı cekemeyecekler ise hala, yazık :)

  • Excel dosyası da hazırlayıp düzenleyemiyorum. Herşeyi yap ama bunları yapama. Nereden baksak saçmalık.

    < Bu ileti Android uygulamasından atıldı >
    _____________________________
  • Eh genel olarak tüm PDF çeşitlerini okumak, OCR la da olsa o kadar kolay bir iş değil. Bir kere PDF dökümanların çıkış amacı sadece okunabilen ve içeriği kopyalanamayan ve değiştirilmemesi için yapılmış bir dökümandı. Sonraları farklı versiyonlarla biraz değişse de ancak genel olarak farklı farklı formatları var, mesela siz word dökümanını komple tek bir resim imajı olarak pdf e gömebilir ya da sadece yazıları pdf içine gömebilirsiniz. PDF de belirli bir standard ve görsel kalite gereksinimi yok. Özellikle ilk versiyon PDF lerde görsel resimler çok kötü kalitedeydi ( bir zamanlar hafıza azdı, 320x200 resimler bile çok yer kaplardı). Eğer PDF de teknik bir tasarım, ince çizgiler varsa hele 3D wire modda ise, bunların analizi ise daha da zor.

    Biz insanlar için de mesela bir teknik resmi okumak için iyi bir teknik resim bilgisi gerekir.

    Herşeye rağmen günümüz AI teknolojisi geliştiricilerin beklentisinin 10-100 kat üzerinde performans veriyor bana göre.

    Olması gereken, gelecekte bu sorunları yaşamamak için, AI sistemlerin de okuyabileceği daha semantik bir dijital format standardı gerekiyor.



    < Bu mesaj bu kişi tarafından değiştirildi yimmasabi -- 2 Mart 2026; 11:34:57 >




  • xmuro312 X kullanıcısına yanıt
    excel dosyasını *csv dosyası olarak kaydedip ( virgüllerle (veya noktalı virgül) ayrılmış düz metin dosyası) olarak verebilirsin.



    < Bu mesaj bu kişi tarafından değiştirildi yimmasabi -- 2 Mart 2026; 11:33:13 >
  • Bu yapay zekaların yapabildikleri ve yapamadıkları arasında ciddi uçurumlar var. bir taraftan Brad Pitt ile Tom Cruise aynı sahnede AI yapımı bir filmde dövüşebilirken, bir yandan pdf gibi belgeleri okurken zorlanıyor.

    < Bu ileti mobil sürüm kullanılarak atıldı >
    _____________________________
    In a society that profits from your self doubt, liking yourself is a rebellious act.
  • yimmasabi kullanıcısına yanıt
    Teşekkür ediyorum bilgi için hocam



    < Bu mesaj bu kişi tarafından değiştirildi xmuro312 -- 3 Mart 2026; 7:20:28 >
    < Bu ileti Android uygulamasından atıldı >
  • Yapay Zeka’dan İlgili Konular
    Daha Fazla Göster
  • Okuyamıyor değil sorun maliyet hepsini embedding yap vector db ye at oldu bitti. Ama zaman ve para.

    < Bu ileti mobil sürüm kullanılarak atıldı >
    _____________________________
  • Sonuna kadar PDF'çiyiz abi.

    < Bu ileti mobil sürüm kullanılarak atıldı >
    _____________________________
  • 
Sayfa: 1
- x
Bildirim
mesajınız kopyalandı (ctrl+v) yapıştırmak istediğiniz yere yapıştırabilirsiniz.