Um Meta-Algoritmo de Visão Computacional para Reconhecimento Automatizado de Objetos Subaquáticos Utilizando Imagens de Sonar de Varredura Lateral

1. Introdução

A detecção e identificação de objetos subaquáticos apresentam desafios significativos devido ao ambiente hostil, à baixa qualidade das imagens e aos elevados custos operacionais dos métodos tradicionais, como mergulho autónomo (SCUBA) ou veículos operados remotamente (ROVs). A proliferação de Veículos Subaquáticos Autónomos (AUVs) equipados com sonar de varredura lateral exacerbou o problema da sobrecarga de dados, criando um gargalo no pós-processamento. Este artigo propõe um novo meta-algoritmo concebido para o reconhecimento automatizado em tempo real de objetos em imagens de sonar de varredura lateral. O objetivo é transformar fluxos de dados acústicos brutos num catálogo georreferenciado de objetos, melhorando a consciência situacional para aplicações em arqueologia subaquática e gestão de resíduos oceânicos (por exemplo, recuperação de artes de pesca fantasma).

2. Trabalhos Anteriores & Definição do Problema

As abordagens tradicionais de visão computacional para detecção de objetos, como SIFT, SURF e CNNs modernas (AlexNet, VGG), partilham uma limitação crítica: exigem conhecimento prévio extensivo e dados de treino dos objetos-alvo. Isto é um grande impedimento em domínios subaquáticos onde:

Os objetos-alvo são altamente diversos e não são facilmente categorizáveis (por exemplo, destroços de navios, vários tipos de artes de pesca).
A aquisição de grandes conjuntos de dados rotulados para treino é proibitivamente difícil e dispendiosa.

O algoritmo proposto aborda esta questão ao passar de um paradigma de classificação para um paradigma de detecção de anomalias e agrupamento, eliminando a necessidade de modelos de objetos pré-definidos.

3. Metodologia: O Meta-Algoritmo de 3 Estágios

A inovação central é um fluxo de trabalho simplificado que processa dados brutos de sonar em informações acionáveis.

3.1 Estágio 1: Síntese e Correção de Imagem

Os dados brutos de sonar de varredura lateral no formato XTF (de transmissões em direto ou ficheiros) são processados para sintetizar imagens 2D. São aplicados ajustes geométricos (correção de alcance inclinado) e radiométricos (padrão do feixe, correção de ganho) para produzir imagens corrigidas e prontas para análise. Este estágio garante que os dados de entrada são normalizados, reduzindo artefactos específicos do sensor.

3.2 Estágio 2: Geração de Nuvem de Pontos de Características

Em vez de procurar objetos inteiros, o algoritmo deteta microcaracterísticas visuais fundamentais (por exemplo, cantos, bordas, manchas) utilizando algoritmos de detecção de características 2D (semelhantes ao detetor de cantos de Harris ou ao FAST). O resultado é uma nuvem de pontos onde cada ponto representa uma microcaracterística detetada. Os objetos na imagem são hipotetizados como sendo aglomerações densas destas características no meio de um fundo de ruído.

3.3 Estágio 3: Agrupamento e Definição de ROI

A nuvem de pontos de características é processada utilizando um algoritmo de agrupamento (por exemplo, DBSCAN ou um método personalizado baseado em densidade). Este algoritmo identifica regiões com alta densidade de características, que correspondem a objetos potenciais. Os pontos de ruído (características esparsas e isoladas) são rejeitados. Para cada agrupamento, o centroide é calculado, fornecendo uma Região de Interesse (ROI) precisa e georreferenciada. O resultado final é um catálogo destas ROIs com as suas coordenadas geográficas.

Ideias-Chave

Detecção Livre de Modelos: Evita a necessidade de grandes conjuntos de dados rotulados exigidos por CNNs supervisionadas.
Capacidade em Tempo Real: O pipeline é concebido para dados em fluxo, permitindo o processamento a bordo de AUVs.
Núcleo Independente do Domínio: A abordagem de microcaracterísticas e agrupamento é adaptável a vários tipos de objetos sem necessidade de retreino.

4. Estudos de Caso & Aplicações

O artigo valida o algoritmo com dois casos de uso distintos:

Arqueologia Subaquática: Detetar destroços de naufrágios não uniformes e fragmentados, onde é impossível criar um conjunto de treino abrangente.
Recuperação de Artes de Pesca Fantasma: Identificar redes, armadilhas e linhas de pesca perdidas ou abandonadas de inúmeras formas e tamanhos em ambientes marinhos.

Ambos os casos destacam a força do algoritmo no tratamento de problemas de detecção de "cauda longa" onde a variabilidade dos objetos é alta e os exemplos são escassos.

5. Detalhes Técnicos & Estrutura Matemática

O estágio de agrupamento é matematicamente crítico. Seja $P = \{p_1, p_2, ..., p_n\}$ o conjunto de pontos de características em $\mathbb{R}^2$. Um algoritmo de agrupamento baseado em densidade como o DBSCAN define um agrupamento com base em dois parâmetros:

$\epsilon$: A distância máxima entre dois pontos para que um seja considerado na vizinhança do outro.
$MinPts$: O número mínimo de pontos necessários para formar uma região densa.

Um ponto $p$ é um ponto central se pelo menos $MinPts$ pontos estiverem a uma distância $\epsilon$ dele. Os pontos alcançáveis a partir de pontos centrais formam um agrupamento. Os pontos não alcançáveis a partir de qualquer ponto central são rotulados como ruído. O centroide $C_k$ do agrupamento $k$ com pontos $\{p_i\}$ é calculado como: $C_k = \left( \frac{1}{|k|} \sum_{p_i \in k} x_i, \frac{1}{|k|} \sum_{p_i \in k} y_i \right)$. Este centroide, mapeado através dos dados de navegação do sonar, produz a ROI georreferenciada.

6. Resultados Experimentais & Desempenho

Embora o excerto do PDF fornecido não inclua resultados quantitativos específicos, a metodologia descrita implica métricas de desempenho-chave:

Taxa de Detecção: A capacidade do algoritmo de identificar objetos reais (destroços de navios, artes de pesca) em conjuntos de dados de teste.
Taxa de Falsos Positivos: A taxa na qual características naturais do fundo do mar (rochas, ondulações de areia) são incorretamente agrupadas como objetos. Os parâmetros de agrupamento ($\epsilon$, $MinPts$) são ajustados para minimizar isto.
Latência de Processamento: O tempo desde a receção de um ping de sonar até à saída de um catálogo de ROIs deve ser suficientemente baixo para uso em tempo real num AUV.
Resultado Visual: O resultado final pode ser visualizado como uma sobreposição na imagem de sonar de varredura lateral, onde caixas delimitadoras ou marcadores destacam as ROIs detetadas, ligadas a uma tabela de coordenadas geográficas.

7. Estrutura de Análise: Um Exemplo Prático

Cenário: Um AUV está a inspecionar um local de naufrágio histórico. O sonar devolve uma imagem complexa com destroços, sedimentos e formações rochosas.

Entrada: Fluxo de dados XTF brutos.
Resultado do Estágio 1: Uma imagem de sonar corrigida, em tons de cinza.
Resultado do Estágio 2: Um gráfico de dispersão sobreposto à imagem, mostrando milhares de pontos de cantos/bordas detetados. O campo de destroços mostra uma nuvem significativamente mais densa do que o fundo do mar circundante.
Resultado do Estágio 3: O gráfico de dispersão agora codificado por cores: vários agrupamentos densos e distintos (vermelho, azul, verde) são identificados como ROIs, enquanto os pontos isolados são cinzentos (ruído). O sistema emite: ROI-001: Lat 48.123, Lon -68.456 | ROI-002: Lat 48.124, Lon -68.455.
Ação: Um arqueólogo revê o catálogo e prioriza a ROI-001 para inspeção posterior por ROV.

8. Aplicações Futuras & Direções de Pesquisa

A estrutura do meta-algoritmo está madura para extensão:

Fusão Multi-Sensor: Integrar características da batimetria de ecossondador multifeixe ou de dados de perfilador de subsolo para criar nuvens de pontos de características 3D para melhor caracterização de objetos.
Modelos de IA Híbridos: Utilizar a detecção não supervisionada de ROI como um "pré-filtro", aplicando depois CNNs leves e especializadas para classificar o *tipo* de objeto dentro de cada ROI de alta confiança (por exemplo, "rede" vs. "covo").
Agrupamento Adaptativo: Implementar aprendizagem online para os parâmetros de agrupamento, ajustando-se automaticamente a diferentes tipos de fundo do mar (lama, areia, rocha).
Produtos de Dados Padronizados: Emitir ROIs em formatos GIS padronizados (GeoJSON, KML) para integração imediata em infraestruturas de dados espaciais marítimas.

9. Referências

Lowe, D. G. (1999). Object recognition from local scale-invariant features. Proceedings of the Seventh IEEE International Conference on Computer Vision.
Bay, H., Ess, A., Tuytelaars, T., & Van Gool, L. (2008). Speeded-Up Robust Features (SURF). Computer Vision and Image Understanding.
Viola, P., & Jones, M. (2004). Robust Real-Time Face Detection. International Journal of Computer Vision.
Ester, M., Kriegel, H.-P., Sander, J., & Xu, X. (1996). A density-based algorithm for discovering clusters in large spatial databases with noise. KDD.
Ronneberger, O., Fischer, P., & Brox, T. (2015). U-Net: Convolutional Networks for Biomedical Image Segmentation. MICCAI. (Como exemplo de segmentação avançada relevante para refinar ROIs).

10. Perspectiva do Analista: Ideia Central & Crítica

Ideia Central: Este artigo não trata de construir um melhor classificador de objetos; é uma solução pragmática para ambientes onde a classificação é impossível. Os autores identificaram corretamente que, em cenários reais desordenados e com poucos dados, como o mapeamento oceânico, encontrar uma anomalia é frequentemente mais valioso do que nomeá-la perfeitamente. O seu meta-algoritmo reformula a análise de sonar como um problema de estimativa de densidade no espaço de características—um desvio inteligente e computacionalmente eficiente.

Fluxo Lógico: O pipeline de três estágios é logicamente sólido e orientado para produção. O Estágio 1 (correção) lida com a física do sensor. O Estágio 2 (detecção de características) reduz a dimensionalidade de pixels para pontos salientes. O Estágio 3 (agrupamento) realiza a "detecção" real. Esta modularidade é uma força, permitindo atualizações em cada estágio independentemente (por exemplo, trocar por um detetor de características mais recente).

Pontos Fortes & Fraquezas:
Pontos Fortes: O seu maior ativo é a eficiência de dados. Ao contrário das CNNs, que precisam de milhares de exemplos rotulados—uma tarefa difícil para naufrágios raros—este método pode ser iniciado a partir de uma única inspeção. A alegação de tempo real é plausível dada a leveza relativa da detecção de características e do agrupamento em comparação com a inferência profunda.
Fraquezas: O problema óbvio é o ajuste de parâmetros. O desempenho depende inteiramente dos parâmetros de agrupamento $\epsilon$ e $MinPts$ e da escolha do detetor de características. Estes não são aprendidos; são definidos por um perito. Isto injeta subjetividade e significa que o sistema não é verdadeiramente "autónomo"—requer um humano no ciclo para calibração. É provável que também tenha dificuldades com objetos de baixo contraste ou fundos do mar complexos que geram naturalmente agrupamentos densos de características (por exemplo, afloramentos rochosos), levando a falsos positivos. O artigo, conforme excetado, carece da avaliação quantitativa rigorosa contra um conjunto de teste rotulado que quantificaria estes compromissos.

Ideias Acionáveis: Para os adotantes da indústria, esta é uma ferramenta pronta para pilotagem em inspeções iniciais de áreas amplas para "triar" um fundo do mar. A ideia acionável é implantá-la como um filtro de primeira passagem. Utilizá-la em AUVs para sinalizar centenas de alvos potenciais, seguindo-se métodos de maior fidelidade (mas mais lentos), como IA supervisionada ou análise humana, nessas ROIs prioritárias. Para os investigadores, o caminho a seguir é claro: hibridizar. O sistema de próxima geração deve usar este método não supervisionado para geração de propostas e uma CNN pequena e afinada (treinada nas imagens recortadas das ROIs agora disponíveis) para classificação, criando um pipeline robusto, eficiente e mais informativo. Isto espelha a evolução na visão computacional ótica, dos métodos puramente baseados em características para redes de proposta de região (RPNs) acopladas a CNNs, como visto em arquiteturas como o Faster R-CNN.