A tecnologia principal do Memories.ai é baseada em Large Visual Memory Models, um sistema de IA multimodal. A tecnologia permite a análise de conteúdo de vídeo por meio dos seguintes mecanismos principais:
- extração de características visuaisAnálise de objetos, cenas e ações em quadros de vídeo usando redes neurais convolucionais profundas para criar uma biblioteca de índices visuais
- modelagem cronológicaProcessamento de informações de tempo de vídeo usando arquiteturas 3D CNN ou Transformer para entender a continuidade do desenvolvimento da ação
- fusão multimodalCombinação de reconhecimento de fala ASR e reconhecimento de texto OCR para análise conjunta de texto audiovisual
- compressão de memóriaCompactação de horas de vídeo em vetores de memória recuperáveis, filtrando quadros-chave por meio de um mecanismo de atenção
Essa combinação de tecnologias proporciona ao sistema recursos de compreensão de vídeo semelhantes aos humanos, incluindo reconhecimento de cenas (precisão 92%), classificação comportamental (F1-score 0,87) e associação semântica (recall 88%), com velocidades de processamento de até 4 vezes a velocidade da análise de vídeo em tempo real.
Essa resposta foi extraída do artigoMemories.ai: uma ferramenta de memória visual de IA para análise de conteúdo de vídeoO