Posição atual:fig. início » Biblioteca de ferramentas de IA

PhysUniBenchmark: ferramenta de benchmarking para problemas de física multimodal

2025-06-30

1.4 K 1

https://github.com/PrismaX-Team/PhysUniBenchmark

fazer uma cópia de

Link diretoVisualização móvel

O PhysUniBenchmark é uma ferramenta de benchmarking de código aberto para problemas de física multimodal, hospedada no GitHub e desenvolvida pela PrismaX-Team. Ela foi projetada para avaliar os recursos dos macromodelos multimodais ao lidar com problemas de física em nível de graduação, com foco especial em cenários complexos que exigem uma combinação de compreensão conceitual e interpretação visual. O conjunto de dados contém diversos problemas de física que abrangem uma ampla gama de domínios, como mecânica, eletromagnetismo e óptica, com tópicos na forma de descrições textuais, fórmulas, imagens e diagramas. A ferramenta fornece aos pesquisadores e desenvolvedores uma plataforma de teste padronizada para ajudar a analisar o desempenho de modelos grandes em raciocínio físico e tarefas multimodais. A documentação do projeto é detalhada e fácil de acessar e usar, o que a torna adequada para pesquisas acadêmicas e otimização de modelos.

PhysUniBenchmark：多模态物理问题基准测试工具-1

Lista de funções

Fornece conjuntos de dados de problemas de física multimodal em grande escala, abrangendo uma ampla gama de disciplinas de física em nível de graduação.
Apoio à avaliação padronizada dos recursos de raciocínio de macromodelos multimodais.
Contém uma grande variedade de tipos de tópicos, como palavras, fórmulas, imagens e diagramas para testar a compreensão geral.
Código-fonte aberto e conjuntos de dados que permitem que os usuários façam download, modifiquem e ampliem livremente.
Documentação detalhada e guias do usuário são fornecidos para dar suporte à rápida inicialização.
Apoiar a geração de relatórios de avaliação para analisar o desempenho do modelo em diferentes domínios físicos.

Usando a Ajuda

Aquisição e instalação

O PhysUniBenchmark é um projeto de código aberto baseado no GitHub que os usuários podem acessar e usar seguindo as etapas abaixo:

armazém de clones
Abra um terminal e execute o seguinte comando para clonar o projeto localmente:
```
git clone https://github.com/PrismaX-Team/PhysUniBenchmark.git
```
Certifique-se de que o Git esteja instalado; caso contrário, você pode obtê-lo no diretório Site do Git Faça o download e instale.
Instalação de dependências
Vá para o catálogo de projetos:
```
cd PhysUniBenchmark
```
O projeto depende de um ambiente Python (recomenda-se o Python 3.8 ou superior). Instale as dependências necessárias e execute:
```
pip install -r requirements.txt
```
requirements.txt lista todas as bibliotecas Python necessárias, como NumPy, Pandas e Matplotlib. Se o arquivo estiver faltando, você poderá instalá-lo manualmente consultando a lista de dependências na documentação do projeto.
Download do conjunto de dados
Os conjuntos de dados são armazenados em repositórios do GitHub ou em links externos. Os usuários podem acessar o repositório diretamente do data para fazer o download, ou siga o link na documentação para acessar o conjunto de dados completo. Após o download, descompacte o conjunto de dados na pasta especificada no diretório do projeto (o caminho padrão é data/）。
Ambiente de configuração
Certifique-se de que o ambiente local seja compatível com modelos multimodais de grande porte (por exemplo, GPT-4o ou outros modelos de código aberto). Os usuários precisam configurar variáveis de ambiente ou caminhos de modelo de acordo com a API do modelo ou com os requisitos de implantação local. As etapas detalhadas de configuração estão descritas no projeto README.md Há uma descrição.

Processo de uso

A função principal do PhysUniBenchmark é avaliar o desempenho de grandes modelos multimodais em problemas de física. Veja a seguir as etapas para fazer isso:

Preparação do modelo
Os usuários precisam preparar um modelo grande que ofereça suporte a entradas multimodais (texto e imagens). As opções comuns incluem GPT-4o, LLaVA ou outros modelos de código aberto. Certifique-se de que o modelo esteja implantado e possa ser chamado via API ou localmente.
Carregando conjuntos de dados
O projeto fornece um script Python load_data.py para carregar o conjunto de dados. Execute o seguinte comando:
```
python load_data.py --path data/
```
O script analisa os problemas no conjunto de dados, incluindo texto, fórmulas e imagens, e gera formatos de entrada que podem ser processados pelo modelo.
Avaliação operacional
Use os scripts de avaliação fornecidos evaluate.py Teste o desempenho do modelo. Exemplo de comando:
```
python evaluate.py --model <model_name> --data_path data/ --output results/
```
- <model_name>Especifique o nome do modelo ou a chave de API.
- --data_pathCaminho de localização do conjunto de dados: O caminho onde o conjunto de dados está localizado.
- --outputCaminho para salvar os resultados da avaliação.
  O script alimenta automaticamente as perguntas no modelo, coleta as respostas e gera um relatório de avaliação.
análise
Após a conclusão da avaliação, os resultados são salvos na pasta results/ no formato de um arquivo CSV ou JSON. O relatório contém estatísticas de precisão, análise de erros e desempenho do modelo em diferentes domínios físicos (por exemplo, mecânica, eletromagnetismo). Os usuários podem usar o visualize.py Scripts para gerar gráficos visuais:
```
python visualize.py --results results/eval_report.csv
```
Os gráficos incluem gráficos de barras e gráficos de linhas que mostram as diferenças no desempenho do modelo entre os domínios.

Operação da função em destaque

Teste de problemas multimodais
Os problemas do conjunto de dados combinam texto, fórmulas e imagens. Por exemplo, um problema de mecânica pode conter uma descrição textual do movimento de um objeto, um diagrama de força e um gráfico de velocidade e tempo. Os usuários podem usar o preprocess.py O script pré-processa essas entradas para garantir que o modelo possa analisá-las corretamente:
```
python preprocess.py --input data/sample_problem.json
```
Os dados pré-processados são convertidos em um formato reconhecível pelo modelo, como JSON ou vetores incorporados.
Extensões personalizadas
Os usuários podem adicionar novas perguntas ao conjunto de dados. O formato da pergunta precisa seguir o modelo JSON na documentação do projeto e conter o seguinte question(Descrição do problema),image(caminho da imagem),answer(resposta correta) e outros campos. Depois de adicioná-los, execute validate_data.py Validar o formato dos dados:
```
python validate_data.py --input data/new_problem.json
```
análise comparativa
O projeto suporta testes simultâneos de vários modelos. Os usuários podem testar vários modelos ao mesmo tempo no evaluate.py Especifique vários nomes de modelos no script, e o script gera um relatório de comparação mostrando as diferenças no desempenho de modelos diferentes no mesmo problema.

advertência

Certifique-se de que você tenha espaço de armazenamento suficiente localmente (os conjuntos de dados podem ser grandes, recomenda-se pelo menos 10 GB).
O suporte à GPU pode ser necessário para a inferência do modelo ao executar avaliações, e recomenda-se o uso de dispositivos equipados com GPU NVIDIA.
Se estiver usando uma API de nuvem (por exemplo, GPT-4o), verifique se a rede está estável e configure a chave de API correta.

cenário do aplicativo

pesquisa acadêmica
Os pesquisadores podem usar o PhysUniBenchmark para testar o desempenho de macromodelos multimodais em tarefas de raciocínio físico, analisar as limitações do modelo e fornecer dados para apoiar o aprimoramento do modelo.
desenvolvimento de modelos
Os desenvolvedores podem usar o conjunto de dados para otimizar o treinamento de modelos multimodais, especialmente ao lidar com tarefas relacionadas à física, e para aprimorar o raciocínio visual e lógico dos modelos.
Auxílios educacionais
Os educadores podem usar o conjunto de dados para fins de instrução, para gerar conjuntos de testes de problemas de física, para ajudar os alunos a entender conceitos complexos ou para avaliar o desempenho de ferramentas de ensino de IA.

QA

Quais domínios físicos são compatíveis com o PhysUniBenchmark?
O conjunto de dados abrange as disciplinas de física de nível de graduação de mecânica, eletromagnetismo, óptica, termodinâmica e mecânica quântica e contém uma ampla variedade de tipos de perguntas.
Como faço para adicionar uma pergunta personalizada?
Crie um arquivo de pergunta seguindo o modelo JSON na documentação do projeto, contendo texto, imagens e respostas e, em seguida, execute o comando validate_data.py Validar o formato.
Qual suporte de hardware é necessário?
Recomenda-se o uso de dispositivos equipados com GPU para acelerar a inferência do modelo; as CPUs também podem ser executadas, mas são mais lentas. Pelo menos 16 GB de RAM e 10 GB de armazenamento.
Há suporte para modelos de código aberto?
Suporta qualquer modelo multimodal, por exemplo, LLaVA, CLIP, etc. O ambiente precisa ser configurado de acordo com os requisitos do modelo.

Projeto de código aberto de IA

Ferramentas de produtividade de IA » PhysUniBenchmark: ferramenta de benchmarking para problemas de física multimodal Publicado em 2025-06-30. Se você achar que o URL está desatualizado ou inacessível, entre em contato conosco.

0Marcado

0Recomendado

PhysUniBenchmark: ferramenta de benchmarking para problemas de física multimodal

Lista de funções

Usando a Ajuda

Aquisição e instalação

Processo de uso

Operação da função em destaque

advertência

cenário do aplicativo

QA

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

PhysUniBenchmark: ferramenta de benchmarking para problemas de física multimodal

Lista de funções

Usando a Ajuda

Aquisição e instalação

Processo de uso

Operação da função em destaque

advertência

cenário do aplicativo

QA

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida