1. مقدمه

تشخیص و شناسایی اشیاء زیرآبی به دلیل محیط خصمانه، کیفیت پایین تصاویر و هزینه‌های عملیاتی بالای روش‌های سنتی مانند غواصی اسکوبا یا وسایل نقلیه زیرآبی هدایت‌شونده از راه دور (ROV)، چالش‌های قابل توجهی ایجاد می‌کند. گسترش وسایل نقلیه زیرآبی خودمختار (AUV) مجهز به سونار جانبی، مشکل انبوه داده را تشدید کرده و یک گلوگاه در پردازش پس‌از-برداشت ایجاد کرده است. این مقاله یک فراآلگوریتم نوین را پیشنهاد می‌دهد که برای شناسایی خودکار و بلادرنگ اشیاء در تصاویر سونار جانبی طراحی شده است. هدف تبدیل جریان‌های خام داده‌های آکوستیک به یک فهرست زمین‌مرجع‌شده از اشیاء است تا آگاهی موقعیتی برای کاربردهایی در باستان‌شناسی زیرآبی و مدیریت پسماند اقیانوسی (مانند بازیافت تورهای ماهیگیری رها شده) افزایش یابد.

2. کارهای پیشین و بیان مسئله

رویکردهای سنتی بینایی ماشین برای تشخیص شیء، مانند SIFT، SURF و شبکه‌های عصبی کانولوشنی (CNN) مدرن (الکس‌نت، VGG)، یک محدودیت حیاتی مشترک دارند: آنها نیازمند دانش و داده‌های آموزشی گسترده پیشین از اشیاء هدف هستند. این یک مانع بزرگ در حوزه زیرآبی است که در آن:

  • اشیاء هدف بسیار متنوع بوده و به راحتی قابل دسته‌بندی نیستند (مانند آوار کشتی، انواع مختلف ادوات ماهیگیری).
  • کسب مجموعه داده‌های بزرگ و برچسب‌خورده برای آموزش، بسیار دشوار و پرهزینه است.

الگوریتم پیشنهادی با تغییر از پارادایم طبقه‌بندی به پارادایم تشخیص ناهنجاری و خوشه‌بندی، این مسئله را حل می‌کند و نیاز به مدل‌های از پیش تعریف شده شیء را حذف می‌نماید.

3. روش‌شناسی: فراآلگوریتم سه مرحله‌ای

نوآوری اصلی، یک گردش کار ساده‌شده است که داده‌های خام سونار را به اطلاعات عملی تبدیل می‌کند.

3.1 مرحله ۱: ترکیب و تصحیح تصویر

داده‌های خام سونار جانبی با فرمت XTF (از جریان‌های زنده یا فایل‌ها) پردازش می‌شوند تا تصاویر دوبعدی ترکیب شوند. تنظیمات هندسی (تصحیح برد مایل) و رادیومتریک (الگوی پرتو، تصحیح بهره) اعمال می‌شوند تا تصاویر تصحیح‌شده و آماده برای تحلیل تولید شوند. این مرحله اطمینان می‌دهد که داده ورودی نرمال‌سازی شده و آثار اختصاصی حسگر کاهش می‌یابد.

3.2 مرحله ۲: تولید ابر نقاط ویژگی

به جای جستجوی کل اشیاء، الگوریتم ریز-ویژگی‌های بصری بنیادی (مانند گوشه‌ها، لبه‌ها، لکه‌ها) را با استفاده از الگوریتم‌های تشخیص ویژگی دوبعدی (مشابه آشکارساز گوشه هریس یا FAST) تشخیص می‌دهد. خروجی یک ابر نقطه است که هر نقطه نمایانگر یک ریز-ویژگی تشخیص داده شده است. فرض بر این است که اشیاء در تصویر، تجمع‌های متراکمی از این ویژگی‌ها در میان زمینه‌ای از نویز هستند.

3.3 مرحله ۳: خوشه‌بندی و تعریف ناحیه مورد علاقه

ابر نقاط ویژگی با استفاده از یک الگوریتم خوشه‌بندی (مانند DBSCAN یا یک روش سفارشی مبتنی بر چگالی) پردازش می‌شود. این الگوریتم نواحی با چگالی ویژگی بالا را شناسایی می‌کند که با اشیاء بالقوه مطابقت دارند. نقاط نویز (ویژگی‌های پراکنده و مجزا) حذف می‌شوند. برای هر خوشه، مرکز ثقل محاسبه می‌شود که یک ناحیه مورد علاقه (ROI) دقیق و زمین‌مرجع‌شده را فراهم می‌کند. خروجی نهایی یک فهرست از این ROIها همراه با مختصات جغرافیایی آنهاست.

بینش‌های کلیدی

  • تشخیص بدون مدل: نیاز به مجموعه داده‌های بزرگ و برچسب‌خورده مورد نیاز شبکه‌های عصبی کانولوشنی نظارت‌شده را برطرف می‌کند.
  • قابلیت بلادرنگ: خط لوله پردازش برای داده‌های جریانی طراحی شده است و پردازش روی‌برد AUV را ممکن می‌سازد.
  • هسته مستقل از حوزه: رویکرد ریز-ویژگی و خوشه‌بندی بدون نیاز به آموزش مجدد، قابل تطبیق با انواع مختلف اشیاء است.

4. مطالعات موردی و کاربردها

مقاله الگوریتم را با دو مورد استفاده متمایز اعتبارسنجی می‌کند:

  1. باستان‌شناسی زیرآبی: تشخیص آوارهای غیریکنواخت و تکه‌تکه شده کشتی‌های غرق‌شده که ایجاد یک مجموعه آموزشی جامع برای آنها غیرممکن است.
  2. بازیافت ادوات ماهیگیری رها شده: شناسایی تورها، تله‌ها و طناب‌های ماهیگیری گم‌شده یا رها شده با اشکال و اندازه‌های بی‌شمار در محیط‌های دریایی.

هر دو مورد بر قدرت الگوریتم در مدیریت مسائل تشخیص "دنباله بلند" که در آن تنوع شیء بالا و نمونه‌ها کمیاب هستند، تأکید می‌کنند.

5. جزئیات فنی و چارچوب ریاضی

مرحله خوشه‌بندی از نظر ریاضی حیاتی است. فرض کنید $P = \{p_1, p_2, ..., p_n\}$ مجموعه نقاط ویژگی در $\mathbb{R}^2$ باشد. یک الگوریتم خوشه‌بندی مبتنی بر چگالی مانند DBSCAN یک خوشه را بر اساس دو پارامتر تعریف می‌کند:

  • $\epsilon$: حداکثر فاصله بین دو نقطه برای اینکه یکی در همسایگی دیگری در نظر گرفته شود.
  • $MinPts$: حداقل تعداد نقاط مورد نیاز برای تشکیل یک ناحیه متراکم.

یک نقطه $p$ یک نقطه هسته است اگر حداقل $MinPts$ نقطه در فاصله $\epsilon$ از آن وجود داشته باشد. نقاطی که از نقاط هسته قابل دسترسی هستند، یک خوشه را تشکیل می‌دهند. نقاطی که از هیچ نقطه هسته‌ای قابل دسترسی نیستند، به عنوان نویز برچسب می‌خورند. مرکز ثقل $C_k$ خوشه $k$ با نقاط $\{p_i\}$ به صورت زیر محاسبه می‌شود: $C_k = \left( \frac{1}{|k|} \sum_{p_i \in k} x_i, \frac{1}{|k|} \sum_{p_i \in k} y_i \right)$. این مرکز ثقل، که از طریق داده‌های ناوبری سونار نگاشت می‌شود، ROI زمین‌مرجع‌شده را به دست می‌دهد.

6. نتایج آزمایشی و عملکرد

در حالی که گزیده PDF ارائه شده شامل نتایج کمی خاصی نیست، روش‌شناسی توصیف‌شده معیارهای عملکرد کلیدی زیر را القا می‌کند:

  • نرخ تشخیص: توانایی الگوریتم در شناسایی اشیاء واقعی (آوار کشتی، ادوات ماهیگیری) در مجموعه داده‌های آزمایشی.
  • نرخ مثبت کاذب: نرخی که در آن ویژگی‌های طبیعی بستر دریا (صخره‌ها، موج‌های ماسه‌ای) به اشتباه به عنوان شیء خوشه‌بندی می‌شوند. پارامترهای خوشه‌بندی ($\epsilon$، $MinPts$) برای به حداقل رساندن این نرخ تنظیم می‌شوند.
  • تأخیر پردازش: زمان از دریافت پینگ سونار تا خروجی فهرست ROI باید برای استفاده بلادرنگ روی یک AUV به اندازه کافی کم باشد.
  • خروجی بصری: خروجی نهایی را می‌توان به صورت یک لایه روی تصویر سونار جانبی تجسم کرد، که در آن کادرهای محدودکننده یا نشانگرها، ROIهای تشخیص داده شده را برجسته می‌کنند و به جدولی از مختصات جغرافیایی پیوند دارند.

7. چارچوب تحلیل: یک مثال عملی

سناریو: یک AUV در حال بررسی یک محل تاریخی کشتی غرق‌شده است. سونار یک تصویر پیچیده با آوار، رسوبات و سازندهای سنگی بازمی‌گرداند.

  1. ورودی: جریان داده خام XTF.
  2. خروجی مرحله ۱: یک تصویر سونار خاکستری و تصحیح‌شده.
  3. خروجی مرحله ۲: یک نمودار پراکندگی روی تصویر، که هزاران نقطه گوشه/لبه تشخیص داده شده را نشان می‌دهد. میدان آوار، ابری به مراتب متراکم‌تر از بستر دریاهای اطراف نشان می‌دهد.
  4. خروجی مرحله ۳: نمودار پراکندگی اکنون با رنگ کدگذاری شده است: چندین خوشه متراکم متمایز (قرمز، آبی، سبز) به عنوان ROI شناسایی می‌شوند، در حالی که نقاط مجزا خاکستری (نویز) هستند. سیستم خروجی می‌دهد: ROI-001: عرض ۴۸.۱۲۳، طول ۶۸.۴۵۶- | ROI-002: عرض ۴۸.۱۲۴، طول ۶۸.۴۵۵-.
  5. اقدام: یک باستان‌شناس فهرست را مرور کرده و ROI-001 را برای بررسی بیشتر با ROV در اولویت قرار می‌دهد.

8. کاربردهای آتی و جهت‌های پژوهشی

چارچوب فراآلگوریتم برای گسترش آماده است:

  • ادغام چند-حسگری: یکپارچه‌سازی ویژگی‌ها از داده‌های ژرفاسنجی اکوساندر چندپرتو یا پروفایلر زیربستر برای ایجاد ابر نقاط ویژگی سه‌بعدی به منظور بهبود توصیف شیء.
  • مدل‌های هوش مصنوعی ترکیبی: استفاده از تشخیص ROI بدون نظارت به عنوان یک "پیش‌فیلتر"، سپس اعمال شبکه‌های عصبی کانولوشنی سبک‌وزن و تخصصی برای طبقه‌بندی *نوع* شیء درون هر ROI با اطمینان بالا (مانند "تور" در مقابل "قلاب").
  • خوشه‌بندی تطبیقی: پیاده‌سازی یادگیری برخط برای پارامترهای خوشه‌بندی تا به طور خودکار با انواع مختلف بستر دریا (گل، ماسه، سنگ) سازگار شود.
  • محصولات داده استاندارد: خروجی ROIها در قالب‌های استاندارد GIS (GeoJSON، KML) برای یکپارچه‌سازی فوری در زیرساخت‌های داده مکانی دریایی.

9. مراجع

  1. Lowe, D. G. (1999). Object recognition from local scale-invariant features. Proceedings of the Seventh IEEE International Conference on Computer Vision.
  2. Bay, H., Ess, A., Tuytelaars, T., & Van Gool, L. (2008). Speeded-Up Robust Features (SURF). Computer Vision and Image Understanding.
  3. Viola, P., & Jones, M. (2004). Robust Real-Time Face Detection. International Journal of Computer Vision.
  4. Ester, M., Kriegel, H.-P., Sander, J., & Xu, X. (1996). A density-based algorithm for discovering clusters in large spatial databases with noise. KDD.
  5. Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. MICCAI. (به عنوان مثالی از تقسیم‌بندی پیشرفته مرتبط با پالایش ROIها).

10. دیدگاه تحلیلگر: بینش کلیدی و نقد

بینش کلیدی: این مقاله درباره ساختن یک طبقه‌بند شیء بهتر نیست؛ بلکه یک راه‌حل عملی برای محیط‌هایی است که طبقه‌بندی در آنها غیرممکن است. نویسندگان به درستی شناسایی کرده‌اند که در سناریوهای آشفته و فقیر از داده دنیای واقعی مانند نقشه‌برداری اقیانوس، یافتن یک ناهنجاری اغلب ارزشمندتر از نام‌گذاری کامل آن است. فراآلگوریتم آنها تحلیل سونار را به عنوان یک مسئله تخمین چگالی در فضای ویژگی بازتعریف می‌کند—یک دور زدن هوشمندانه و از نظر محاسباتی کارآمد.

جریان منطقی: خط لوله سه مرحله‌ای از نظر منطقی مستحکم و جهت‌دار به سمت تولید است. مرحله ۱ (تصحیح) با فیزیک حسگر سروکار دارد. مرحله ۲ (تشخیص ویژگی) ابعاد را از پیکسل‌ها به نقاط برجسته کاهش می‌دهد. مرحله ۳ (خوشه‌بندی) "تشخیص" واقعی را انجام می‌دهد. این ماژولاریت یک نقطه قوت است و امکان ارتقای مستقل هر مرحله (مانند جایگزینی یک آشکارساز ویژگی جدیدتر) را فراهم می‌کند.

نقاط قوت و ضعف:
نقاط قوت: بزرگترین دارایی آن کارایی داده است. برخلاف شبکه‌های عصبی کانولوشنی که تشنه هزاران مثال برچسب‌خورده هستند—که برای کشتی‌های غرق‌شده نادر امری دشوار است—این روش می‌تواند از یک بررسی واحد شروع به کار کند. ادعای بلادرنگ با توجه به سبکی نسبی تشخیص ویژگی و خوشه‌بندی در مقابل استنتاج عمیق، قابل قبول است.
نقاط ضعف: فیل بزرگی که در اتاق است، تنظیم پارامترها است. عملکرد کاملاً به پارامترهای خوشه‌بندی $\epsilon$ و $MinPts$ و انتخاب آشکارساز ویژگی وابسته است. اینها یاد گرفته نمی‌شوند؛ بلکه توسط یک متخصص تنظیم می‌شوند. این امر ذهنیت را تزریق می‌کند و به این معنی است که سیستم به طور واقعی "خودمختار" نیست—برای کالیبراسیون نیاز به حضور انسان در حلقه دارد. همچنین به احتمال زیاد با اشیاء کم‌کنتراست یا بسترهای دریا پیچیده که به طور طبیعی خوشه‌های ویژگی متراکم ایجاد می‌کنند (مانند برآمدگی‌های سنگی) دست و پنجه نرم می‌کند و منجر به مثبت‌های کاذب می‌شود. مقاله، همانطور که گزیده شده است، فاقد معیارسنجی کمی دقیق در برابر یک مجموعه آزمایشی برچسب‌خورده است که این مبادلات را کمّی کند.

بینش‌های عملی: برای پذیرندگان صنعتی، این یک ابزار آماده برای خلبانی اولیه برای بررسی‌های اولیه منطقه گسترده برای "اولویت‌بندی" یک بستر دریا است. بینش عملی این است که آن را به عنوان یک فیلتر گذر اول به کار گیرند. از آن روی AUVها استفاده کنند تا صدها هدف بالقوه را علامت‌گذاری کنند، سپس با روش‌های با وفاداری بالاتر (اما کندتر) مانند هوش مصنوعی نظارت‌شده یا تحلیل انسانی روی آن ROIهای اولویت‌دار پیگیری کنند. برای پژوهشگران، مسیر پیش رو روشن است: ترکیب. سیستم نسل بعدی باید از این روش بدون نظارت برای تولید پیشنهاد و یک شبکه عصبی کانولوشنی کوچک و تنظیم‌شده (آموزش دیده روی برش‌های ROI اکنون در دسترس) برای طبقه‌بندی استفاده کند تا یک خط لوله قوی، کارآمد و آموزنده‌تر ایجاد کند. این امر تکامل در بینایی ماشین نوری را از روش‌های صرفاً مبتنی بر ویژگی به شبکه‌های پیشنهاد ناحیه (RPN) همراه با شبکه‌های عصبی کانولوشنی، همانطور که در معماری‌هایی مانند Faster R-CNN دیده می‌شود، منعکس می‌کند.