1. Giriş

Sualtı nesnelerinin tespiti ve tanımlanması, düşmanca ortam, düşük görüntü kalitesi ve SCUBA veya ROV gibi geleneksel yöntemlerin yüksek operasyonel maliyetleri nedeniyle önemli zorluklar sunar. Yandan taramalı sonar ile donatılmış Otonom Sualtı Araçlarının (AUV) yaygınlaşması, veri seli problemini şiddetlendirerek işlem sonrasında bir darboğaz yaratmıştır. Bu makale, yandan taramalı sonar görüntülerindeki nesnelerin gerçek zamanlı, otomatik tanınması için tasarlanmış yeni bir meta-algoritma önermektedir. Amaç, ham akustik veri akışlarını, coğrafi referanslandırılmış bir nesne kataloğuna dönüştürerek, sualtı arkeolojisi ve okyanus atık yönetimi (örn., hayalet balıkçılık ekipmanı kurtarma) uygulamaları için durumsal farkındalığı artırmaktır.

2. Önceki Çalışmalar & Problem Tanımı

SIFT, SURF ve modern CNN'ler (AlexNet, VGG) gibi nesne tespiti için geleneksel bilgisayarlı görü yaklaşımları kritik bir sınırlamayı paylaşır: hedef nesnelere dair kapsamlı ön bilgi ve eğitim verisi gerektirirler. Bu, aşağıdaki nedenlerle sualtı alanlarında büyük bir engeldir:

  • Hedef nesneler oldukça çeşitlidir ve kolayca kategorize edilemez (örn., gemi enkazı, çeşitli balıkçılık ekipmanları).
  • Eğitim için büyük, etiketli veri setleri elde etmek son derece zor ve pahalıdır.

Önerilen algoritma, sınıflandırma paradigmasından bir anomali tespiti ve kümeleme paradigmasına geçerek bu sorunu ele alır ve önceden tanımlanmış nesne modellerine olan ihtiyacı ortadan kaldırır.

3. Metodoloji: 3 Aşamalı Meta-Algoritma

Temel yenilik, ham sonar verisini işlenebilir istihbarata dönüştüren sadeleştirilmiş bir iş akışıdır.

3.1 Aşama 1: Görüntü Sentezi & Düzeltme

Ham XTF formatındaki yandan taramalı sonar verileri (canlı akışlardan veya dosyalardan), 2B görüntüler sentezlemek için işlenir. Geometrik (eğimli menzil düzeltmesi) ve radyometrik (ışın deseni, kazanç düzeltmesi) ayarlamalar uygulanarak düzeltilmiş, analize hazır görüntüler üretilir. Bu aşama, giriş verisinin normalize edilmesini sağlayarak sensöre özgü artefaktları azaltır.

3.2 Aşama 2: Özellik Nokta Bulutu Üretimi

Algoritma, bütün nesneleri aramak yerine, 2B özellik tespit algoritmaları (Harris köşe dedektörü veya FAST benzeri) kullanarak temel görsel mikro-özellikleri (örn., köşeler, kenarlar, lekeler) tespit eder. Çıktı, her noktanın tespit edilmiş bir mikro-özelliği temsil ettiği bir nokta bulutudur. Görüntüdeki nesnelerin, gürültü arka planı içinde bu özelliklerin yoğun kümelenmeleri olduğu varsayılır.

3.3 Aşama 3: Kümeleme & İlgi Alanı (ROI) Tanımlama

Özellik nokta bulutu, bir kümeleme algoritması (örn., DBSCAN veya özel bir yoğunluk tabanlı yöntem) kullanılarak işlenir. Bu algoritma, yüksek özellik yoğunluğuna sahip bölgeleri, yani potansiyel nesnelere karşılık gelen bölgeleri tanımlar. Gürültü noktaları (seyrek, izole özellikler) elenir. Her küme için merkez nokta hesaplanır ve bu da hassas, coğrafi referanslandırılmış bir İlgi Alanı (ROI) sağlar. Nihai çıktı, coğrafi koordinatlarıyla birlikte bu ROI'lerin bir kataloğudur.

Temel Kavrayışlar

  • Model-Gerektirmeyen Tespit: Denetimli CNN'lerin gerektirdiği büyük, etiketli veri setlerine olan ihtiyacı ortadan kaldırır.
  • Gerçek Zamanlı Yetenek: İş akışı, akış verisi için tasarlanmıştır ve AUV üzerinde işleme imkanı sağlar.
  • Etki Alanından Bağımsız Çekirdek: Mikro-özellik & kümeleme yaklaşımı, yeniden eğitime gerek kalmadan çeşitli nesne tiplerine uyarlanabilir.

4. Vaka Çalışmaları & Uygulamalar

Makale, algoritmayı iki farklı kullanım durumuyla doğrulamaktadır:

  1. Sualtı Arkeolojisi: Kapsamlı bir eğitim seti oluşturmanın imkansız olduğu, düzensiz, parçalanmış gemi enkazı kalıntılarının tespiti.
  2. Hayalet Balıkçılık Ekipmanı Kurtarma: Deniz ortamlarında sayısız şekil ve boyutta kaybolmuş veya terk edilmiş balık ağları, tuzakları ve misinalarının tanımlanması.

Her iki durum da, nesne çeşitliliğinin yüksek ve örneklerin az olduğu "uzun kuyruk" tespit problemleriyle başa çıkmadaki algoritma gücünü vurgulamaktadır.

5. Teknik Detaylar & Matematiksel Çerçeve

Kümeleme aşaması matematiksel olarak kritiktir. $P = \{p_1, p_2, ..., p_n\}$, $\mathbb{R}^2$'deki özellik noktaları kümesi olsun. DBSCAN gibi yoğunluk tabanlı bir kümeleme algoritması, iki parametreye dayalı bir küme tanımlar:

  • $\epsilon$: Bir noktanın diğerinin komşuluğunda kabul edilmesi için iki nokta arasındaki maksimum mesafe.
  • $MinPts$: Yoğun bir bölge oluşturmak için gereken minimum nokta sayısı.

Bir $p$ noktası, eğer en az $MinPts$ noktası onun $\epsilon$ mesafesi içindeyse bir çekirdek noktasıdır. Çekirdek noktalardan ulaşılabilen noktalar bir küme oluşturur. Herhangi bir çekirdek noktadan ulaşılamayan noktalar gürültü olarak etiketlenir. $\{p_i\}$ noktalarına sahip $k$ kümesinin merkez noktası $C_k$ şu şekilde hesaplanır: $C_k = \left( \frac{1}{|k|} \sum_{p_i \in k} x_i, \frac{1}{|k|} \sum_{p_i \in k} y_i \right)$. Bu merkez nokta, sonarın navigasyon verileri aracılığıyla eşlenerek coğrafi referanslandırılmış ROI'yi verir.

6. Deneysel Sonuçlar & Performans

Sağlanan PDF alıntısı spesifik nicel sonuçlar içermese de, tanımlanan metodoloji şu temel performans metriklerini ima etmektedir:

  • Tespit Oranı: Algoritmanın test veri setlerinde gerçek nesneleri (gemi enkazı, balıkçılık ekipmanı) tanımlama yeteneği.
  • Yanlış Pozitif Oranı: Doğal deniz tabanı özelliklerinin (kayalar, kum dalgalanmaları) yanlışlıkla nesne olarak kümelenme oranı. Kümeleme parametreleri ($\epsilon$, $MinPts$) bunu en aza indirmek için ayarlanır.
  • İşleme Gecikmesi: Bir sonar ping'i alındıktan bir ROI kataloğu çıktısı üretilene kadar geçen sürenin, bir AUV üzerinde gerçek zamanlı kullanım için yeterince düşük olması gerekir.
  • Görsel Çıktı: Nihai çıktı, sınırlayıcı kutular veya işaretleyicilerin tespit edilen ROI'leri vurguladığı ve coğrafi koordinatlar tablosuna bağlandığı bir yandan taramalı sonar görüntüsü kaplaması olarak görselleştirilebilir.

7. Analiz Çerçevesi: Pratik Bir Örnek

Senaryo: Bir AUV, tarihi bir gemi enkazı bölgesini tarıyor. Sonar, enkaz, sediment ve kaya oluşumları içeren karmaşık bir görüntü döndürüyor.

  1. Giriş: Ham XTF veri akışı.
  2. Aşama 1 Çıktısı: Düzeltilmiş, gri tonlamalı bir sonar görüntüsü.
  3. Aşama 2 Çıktısı: Görüntü üzerine bindirilmiş, binlerce tespit edilmiş köşe/kenar noktasını gösteren bir dağılım grafiği. Enkaz alanı, çevreleyen deniz tabanından önemli ölçüde daha yoğun bir bulut gösterir.
  4. Aşama 3 Çıktısı: Dağılım grafiği artık renk kodlu: birkaç farklı, yoğun küme (kırmızı, mavi, yeşil) ROI olarak tanımlanırken, izole noktalar gri (gürültü) olarak kalır. Sistem şunu çıktılar: ROI-001: Enlem 48.123, Boylam -68.456 | ROI-002: Enlem 48.124, Boylam -68.455.
  5. Eylem: Bir arkeolog kataloğu inceler ve daha fazla ROV incelemesi için ROI-001'i önceliklendirir.

8. Gelecek Uygulamalar & Araştırma Yönleri

Meta-algoritma çerçevesi genişletilmeye hazırdır:

  • Çoklu Sensör Füzyonu: Gelişmiş nesne karakterizasyonu için 3B özellik nokta bulutları oluşturmak amacıyla çok ışınlı eko-sondaj batimetrisi veya taban-altı profillerden gelen özelliklerin entegrasyonu.
  • Hibrit Yapay Zeka Modelleri: Denetimsiz ROI tespitini bir "ön filtre" olarak kullanmak, ardından her yüksek güvenilirlikli ROI içindeki nesnenin *türünü* sınıflandırmak (örn., "ağ" vs. "sepet") için hafif, özelleştirilmiş CNN'ler uygulamak.
  • Uyarlanabilir Kümeleme: Farklı deniz tabanı tiplerine (çamur, kum, kaya) otomatik olarak uyum sağlamak için kümeleme parametrelerinde çevrimiçi öğrenme uygulamak.
  • Standartlaştırılmış Veri Ürünleri: ROI'leri, denizcilik mekansal veri altyapılarına anında entegrasyon için standartlaştırılmış GIS formatlarında (GeoJSON, KML) çıktılamak.

9. Referanslar

  1. Lowe, D. G. (1999). Object recognition from local scale-invariant features. Proceedings of the Seventh IEEE International Conference on Computer Vision.
  2. Bay, H., Ess, A., Tuytelaars, T., & Van Gool, L. (2008). Speeded-Up Robust Features (SURF). Computer Vision and Image Understanding.
  3. Viola, P., & Jones, M. (2004). Robust Real-Time Face Detection. International Journal of Computer Vision.
  4. Ester, M., Kriegel, H.-P., Sander, J., & Xu, X. (1996). A density-based algorithm for discovering clusters in large spatial databases with noise. KDD.
  5. Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. MICCAI. (ROI'leri iyileştirmekle ilgili gelişmiş segmentasyon örneği olarak).

10. Analist Perspektifi: Temel Kavrayış & Eleştiri

Temel Kavrayış: Bu makale, daha iyi bir nesne sınıflandırıcı inşa etmekle ilgili değildir; sınıflandırmanın imkansız olduğu ortamlar için pragmatik bir çözümdür. Yazarlar, okyanus haritalama gibi dağınık, veri fakiri gerçek dünya senaryolarında bir anomaliyi bulmanın, genellikle onu mükemmel bir şekilde adlandırmaktan daha değerli olduğunu doğru bir şekilde tespit etmiştir. Meta-algoritmaları, sonar analizini özellik uzayında bir yoğunluk tahmini problemi olarak yeniden çerçevelemektedir—zekice ve hesaplama açısından verimli bir yan geçiş.

Mantıksal Akış: Üç aşamalı iş akışı mantıksal olarak sağlam ve üretim odaklıdır. Aşama 1 (düzeltme), sensör fiziği ile ilgilenir. Aşama 2 (özellik tespiti), boyutsallığı piksellerden belirgin noktalara indirger. Aşama 3 (kümeleme), gerçek "tespiti" gerçekleştirir. Bu modülerlik bir güçtür, her aşamanın bağımsız olarak yükseltilmesine izin verir (örn., daha yeni bir özellik dedektörü takmak).

Güçlü Yönler & Zayıflıklar:
Güçlü Yönler: En büyük avantajı veri verimliliğidir. Nadir gemi enkazları için zorlu bir talep olan binlerce etiketli örnek açlığı çeken CNN'lerin aksine, bu yöntem tek bir taramadan başlatılabilir. Özellik tespiti ve kümelemenin derin çıkarıma kıyasla nispeten hafif olması nedeniyle gerçek zamanlı iddiası makuldür.
Zayıflıklar: Odadaki fil parametre ayarlamasıdır. Performans tamamen $\epsilon$ ve $MinPts$ kümeleme parametrelerine ve özellik dedektörü seçimine bağlıdır. Bunlar öğrenilmez; bir uzman tarafından belirlenir. Bu öznelliği enjekte eder ve sistemin gerçekten "otonom" olmadığı anlamına gelir—kalibrasyon için döngüde bir insan gerektirir. Ayrıca muhtemelen düşük kontrastlı nesneler veya doğal olarak yoğun özellik kümeleri üreten karmaşık deniz tabanları (örn., kayalık çıkıntılar) ile mücadelede zorlanır, bu da yanlış pozitiflere yol açar. Alıntılandığı haliyle makale, bu dengeleri nicelendirecek olan etiketli bir test setine karşı titiz nicel kıyaslamadan yoksundur.

Eyleme Dönüştürülebilir Kavrayışlar: Endüstri benimseyicileri için bu, bir deniz tabanını "önceliklendirmek" için geniş alanlı ilk taramalarda kullanıma hazır bir araçtır. Eyleme dönüştürülebilir kavrayış, onu bir ilk geçiş filtresi olarak konuşlandırmaktır. AUV'ler üzerinde yüzlerce potansiyel hedefi işaretlemek için kullanın, ardından bu öncelikli ROI'ler üzerinde daha yüksek doğruluklu (ancak daha yavaş) yöntemlerle (denetimli yapay zeka veya insan analizi gibi) takip edin. Araştırmacılar için ileriye giden yol nettir: melezleştirme. Bir sonraki nesil sistem, öneri üretimi için bu denetimsiz yöntemi ve sınıflandırma için (artık mevcut olan ROI kırpımları üzerinde eğitilmiş) küçük, ince ayarlanmış bir CNN'i kullanarak sağlam, verimli ve daha bilgilendirici bir iş akışı oluşturmalıdır. Bu, optik bilgisayarlı görüdeki saf özellik tabanlı yöntemlerden, Faster R-CNN gibi mimarilerde görüldüğü gibi CNN'lerle birleştirilmiş bölge öneri ağlarına (RPN) evrime benzer.