1. Pengenalan

Pengesanan dan pengenalpastian objek bawah air menghadapi cabaran besar disebabkan persekitaran yang sukar, kualiti imej yang rendah, dan kos operasi tinggi kaedah tradisional seperti SCUBA atau ROV. Peningkatan penggunaan Kenderaan Bawah Air Autonomi (AUV) yang dilengkapi sonar sisi telah memburukkan lagi masalah limpahan data, mewujudkan kesesakan dalam pemprosesan pasca. Kertas kerja ini mencadangkan satu meta-algoritma baharu yang direka untuk pengenalan automatik masa nyata objek dalam imej sonar sisi. Matlamatnya adalah untuk mengubah aliran data akustik mentah menjadi katalog objek berrujukan geografi, meningkatkan kesedaran situasi untuk aplikasi dalam arkeologi bawah air dan pengurusan sisa lautan (contohnya, pengambilan peralatan memukat hantu).

2. Kerja Terdahulu & Penyataan Masalah

Pendekatan penglihatan komputer tradisional untuk pengesanan objek, seperti SIFT, SURF, dan CNN moden (AlexNet, VGG), berkongsi satu batasan kritikal: mereka memerlukan pengetahuan awal dan data latihan yang luas tentang objek sasaran. Ini adalah halangan utama dalam domain bawah air di mana:

  • Objek sasaran sangat pelbagai dan tidak mudah dikategorikan (contohnya, serpihan kapal, pelbagai peralatan memukat).
  • Mendapatkan set data berlabel yang besar untuk latihan adalah sangat sukar dan mahal.

Algoritma yang dicadangkan menangani ini dengan beralih daripada paradigma pengelasan kepada paradigma pengesanan anomali dan pengelompokan, menghapuskan keperluan untuk model objek yang telah ditetapkan terlebih dahulu.

3. Metodologi: Meta-Algoritma 3-Peringkat

Inovasi terasnya adalah aliran kerja yang dipermudahkan yang memproses data sonar mentah menjadi maklumat yang boleh ditindak.

3.1 Peringkat 1: Sintesis & Pembetulan Imej

Data sonar sisi format XTF mentah (daripada aliran langsung atau fail) diproses untuk mensintesis imej 2D. Pelarasan geometri (pembetulan julat condong) dan radiometri (coror pancaran, pembetulan gandaan) digunakan untuk menghasilkan imej yang dibetulkan dan sedia untuk dianalisis. Peringkat ini memastikan data input dinormalisasikan, mengurangkan artefak khusus sensor.

3.2 Peringkat 2: Penjanaan Awan Titik Ciri

Daripada mencari objek keseluruhan, algoritma mengesan mikro-ciri visual asas (contohnya, penjuru, tepi, tompok) menggunakan algoritma pengesanan ciri 2D (serupa dengan pengesan penjuru Harris atau FAST). Outputnya adalah awan titik di mana setiap titik mewakili satu mikro-ciri yang dikesan. Objek dalam imej dihipotesiskan sebagai pengumpulan padat ciri-ciri ini di tengah-tengah latar belakang hingar.

3.3 Peringkat 3: Pengelompokan & Definisi ROI

Awan titik ciri diproses menggunakan algoritma pengelompokan (contohnya, DBSCAN atau kaedah berasaskan ketumpatan tersuai). Algoritma ini mengenal pasti kawasan dengan ketumpatan ciri yang tinggi, yang sepadan dengan objek berpotensi. Titik hingar (ciri yang jarang dan terpencil) ditolak. Bagi setiap kelompok, sentroid dikira, menyediakan Kawasan Kepentingan (ROI) yang tepat dan berrujukan geografi. Output akhir adalah katalog ROI ini dengan koordinat geografi mereka.

Inti Pati Utama

  • Pengesanan Bebas Model: Mengelakkan keperluan untuk set data berlabel yang besar seperti yang diperlukan oleh CNN yang diselia.
  • Keupayaan Masa Nyata: Saluran paip direka untuk data strim, membolehkan pemprosesan di atas kapal AUV.
  • Teras Bebas Domain: Pendekatan mikro-ciri & pengelompokan boleh disesuaikan dengan pelbagai jenis objek tanpa latihan semula.

4. Kajian Kes & Aplikasi

Kertas kerja ini mengesahkan algoritma dengan dua kes penggunaan yang berbeza:

  1. Arkeologi Bawah Air: Mengesan serpihan bangkai kapal yang tidak seragam dan terpecah di mana mencipta set latihan yang komprehensif adalah mustahil.
  2. Pengambilan Peralatan Memukat Hantu: Mengenal pasti pukat, perangkap, dan tali pukat yang hilang atau ditinggalkan dalam pelbagai bentuk dan saiz di persekitaran marin.

Kedua-dua kes menonjolkan kekuatan algoritma dalam menangani masalah pengesanan "ekor panjang" di mana kebolehubahan objek adalah tinggi dan contoh adalah terhad.

5. Butiran Teknikal & Kerangka Matematik

Peringkat pengelompokan adalah kritikal dari segi matematik. Biarkan $P = \{p_1, p_2, ..., p_n\}$ menjadi set titik ciri dalam $\mathbb{R}^2$. Algoritma pengelompokan berasaskan ketumpatan seperti DBSCAN mentakrifkan kelompok berdasarkan dua parameter:

  • $\epsilon$: Jarak maksimum antara dua titik untuk satu dianggap berada dalam kejiranan yang lain.
  • $MinPts$: Bilangan minimum titik yang diperlukan untuk membentuk kawasan padat.

Satu titik $p$ adalah titik teras jika sekurang-kurangnya $MinPts$ titik berada dalam jarak $\epsilon$ daripadanya. Titik yang boleh dicapai dari titik teras membentuk kelompok. Titik yang tidak boleh dicapai dari mana-mana titik teras dilabel sebagai hingar. Sentroid $C_k$ bagi kelompok $k$ dengan titik $\{p_i\}$ dikira sebagai: $C_k = \left( \frac{1}{|k|} \sum_{p_i \in k} x_i, \frac{1}{|k|} \sum_{p_i \in k} y_i \right)$. Sentroid ini, dipetakan melalui data navigasi sonar, menghasilkan ROI berrujukan geografi.

6. Keputusan Eksperimen & Prestasi

Walaupun petikan PDF yang diberikan tidak termasuk keputusan kuantitatif khusus, metodologi yang diterangkan membayangkan metrik prestasi utama:

  • Kadar Pengesanan: Keupayaan algoritma untuk mengenal pasti objek sebenar (serpihan kapal, peralatan memukat) dalam set data ujian.
  • Kadar Positif Palsu: Kadar di mana ciri dasar laut semula jadi (batu, riak pasir) dikelompokkan secara salah sebagai objek. Parameter pengelompokan ($\epsilon$, $MinPts$) ditala untuk meminimumkan ini.
  • Kependaman Pemprosesan:

    Masa dari menerima ping sonar sehingga mengeluarkan katalog ROI mestilah cukup rendah untuk kegunaan masa nyata pada AUV.

    • Output Visual: Output akhir boleh divisualisasikan sebagai lapisan imej sonar sisi, di mana kotak sempadan atau penanda menyerlahkan ROI yang dikesan, dikaitkan dengan jadual koordinat geografi.

    7. Kerangka Analisis: Contoh Praktikal

    Skenario: Sebuah AUV sedang menyurvei tapak bangkai kapal bersejarah. Sonar mengembalikan imej kompleks dengan serpihan, enapan, dan formasi batu.

    1. Input: Aliran data XTF mentah.
    2. Output Peringkat 1: Imej sonar kelabu yang telah dibetulkan.
    3. Output Peringkat 2: Plot serakan yang dilapiskan pada imej, menunjukkan ribuan titik penjuru/tepi yang dikesan. Medan serpihan menunjukkan awan yang jauh lebih padat berbanding dasar laut sekeliling.
    4. Output Peringkat 3: Plot serakan kini dikodkan warna: beberapa kelompok padat yang berbeza (merah, biru, hijau) dikenal pasti sebagai ROI, manakala titik terpencil adalah kelabu (hingar). Sistem mengeluarkan: ROI-001: Lat 48.123, Lon -68.456 | ROI-002: Lat 48.124, Lon -68.455.
    5. Tindakan: Seorang ahli arkeologi menyemak katalog dan mengutamakan ROI-001 untuk pemeriksaan ROV lanjut.

    8. Aplikasi Masa Depan & Hala Tuju Penyelidikan

    Kerangka meta-algoritma ini matang untuk pengembangan:

    • Gabungan Pelbagai Sensor: Mengintegrasikan ciri daripada batimetri echosounder berbilang pancaran atau data profiler bawah dasar untuk mencipta awan titik ciri 3D bagi penambahbaikan pencirian objek.
    • Model AI Hibrid: Menggunakan pengesanan ROI tanpa penyeliaan sebagai "pra-penapis," kemudian menggunakan CNN ringan dan khusus untuk mengelaskan *jenis* objek dalam setiap ROI keyakinan tinggi (contohnya, "pukat" vs. "bubu").
    • Pengelompokan Adaptif: Melaksanakan pembelajaran dalam talian untuk parameter pengelompokan untuk melaraskan secara automatik kepada jenis dasar laut yang berbeza (lumpur, pasir, batu).
    • Produk Data Piawai: Mengeluarkan ROI dalam format GIS piawai (GeoJSON, KML) untuk integrasi segera ke dalam infrastruktur data spatial maritim.

    9. Rujukan

    1. Lowe, D. G. (1999). Object recognition from local scale-invariant features. Proceedings of the Seventh IEEE International Conference on Computer Vision.
    2. Bay, H., Ess, A., Tuytelaars, T., & Van Gool, L. (2008). Speeded-Up Robust Features (SURF). Computer Vision and Image Understanding.
    3. Viola, P., & Jones, M. (2004). Robust Real-Time Face Detection. International Journal of Computer Vision.
    4. Ester, M., Kriegel, H.-P., Sander, J., & Xu, X. (1996). A density-based algorithm for discovering clusters in large spatial databases with noise. KDD.
    5. Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. MICCAI. (Sebagai contoh segmentasi maju yang relevan untuk memperhalusi ROI).

    10. Perspektif Penganalisis: Inti Pati & Kritikan

    Inti Pati: Kertas kerja ini bukan tentang membina pengelas objek yang lebih baik; ia adalah jalan keluar pragmatik untuk persekitaran di mana pengelasan adalah mustahil. Penulis telah mengenal pasti dengan betul bahawa dalam senario dunia nyata yang kucar-kacir dan kekurangan data seperti pemetaan lautan, menemukan anomali selalunya lebih bernilai daripada menamakannya dengan sempurna. Meta-algoritma mereka membingkai semula analisis sonar sebagai masalah anggaran ketumpatan dalam ruang ciri—satu langkah pintas yang bijak dan cekap dari segi pengiraan.

    Aliran Logik: Saluran paip tiga peringkat ini logik dan berorientasikan pengeluaran. Peringkat 1 (pembetulan) menangani fizik sensor. Peringkat 2 (pengesanan ciri) mengurangkan dimensi daripada piksel kepada titik penting. Peringkat 3 (pengelompokan) melakukan "pengesanan" sebenar. Modulariti ini adalah kekuatan, membenarkan peningkatan kepada setiap peringkat secara bebas (contohnya, menukar dengan pengesan ciri yang lebih baharu).

    Kekuatan & Kelemahan:
    Kekuatan: Aset terbesarnya adalah kecekapan data. Berbeza dengan CNN yang lapar untuk ribuan contoh berlabel—satu permintaan tinggi untuk bangkai kapal yang jarang—kaedah ini boleh bermula daripada satu survei sahaja. Tuntutan masa nyata adalah munasabah memandangkan keringanan relatif pengesanan ciri dan pengelompokan berbanding inferens mendalam.
    Kelemahan: Gajah dalam bilik adalah penalaan parameter. Prestasi bergantung sepenuhnya pada parameter pengelompokan $\epsilon$ dan $MinPts$ serta pilihan pengesan ciri. Ini tidak dipelajari; ia ditetapkan oleh pakar. Ini menyuntik subjektiviti dan bermaksud sistem ini tidak benar-benar "autonom"—ia memerlukan manusia dalam gelung untuk kalibrasi. Ia juga berkemungkinan bergelut dengan objek kontras rendah atau dasar laut kompleks yang secara semula jadi menjana kelompok ciri padat (contohnya, jajaran batu), membawa kepada positif palsu. Kertas kerja ini, seperti yang dipetik, kekurangan penanda aras kuantitatif yang ketat terhadap set ujian berlabel yang akan mengukur pertukaran ini.

    Inti Pati Boleh Tindak: Bagi pengguna industri, ini adalah alat sedia untuk perintis bagi survei kawasan luas awal untuk "triage" dasar laut. Inti pati boleh tindak adalah untuk menggunakannya sebagai penapis lulusan pertama. Gunakannya pada AUV untuk menandakan ratusan sasaran berpotensi, kemudian susuli dengan kaedah ketepatan lebih tinggi (tetapi lebih perlahan) seperti AI yang diselia atau analisis manusia pada ROI keutamaan tersebut. Bagi penyelidik, jalan ke hadapan adalah jelas: hibridisasi. Sistem generasi seterusnya harus menggunakan kaedah tanpa penyeliaan ini untuk penjanaan cadangan dan CNN kecil, ditala halus (dilatih pada potongan ROI yang kini tersedia) untuk pengelasan, mencipta saluran paip yang teguh, cekap, dan lebih informatif. Ini mencerminkan evolusi dalam penglihatan komputer optik daripada kaedah berasaskan ciri tulen kepada rangkaian cadangan kawasan (RPN) digandingkan dengan CNN, seperti yang dilihat dalam seni bina seperti Faster R-CNN.