Posição atual:fig. início " Biblioteca de ferramentas de IA

MedGemma: uma coleção de modelos de IA de código aberto para compreensão de textos e imagens médicas

2025-07-21

Biblioteca de ferramentas de IA/Modelos dedicados/modelo básico

1.2 K 6

https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4

fazer uma cópia de

Link diretoVisualização móvel

O MedGemma é um conjunto de modelos de IA de código aberto lançado pelo Google na plataforma Hugging Face, com foco na compreensão de textos e imagens na área médica. Ele é baseado em Gemma 3 Desenvolvimento de modelos, projetado para ajudar os desenvolvedores a criar aplicativos de IA relacionados à área de saúde A MedGemma oferece diversas variantes de modelos, incluindo um modelo multimodal de 4B parâmetros e um modelo multimodal e de texto de 27B parâmetros. Esses modelos são especialmente treinados em textos médicos, registros eletrônicos de saúde (EHRs) e uma variedade de imagens médicas, como raios X, imagens de dermatologia, imagens de oftalmologia e lâminas de histopatologia. Os desenvolvedores podem usar esses modelos para acelerar o desenvolvimento de aplicativos de IA médica, como geração de relatórios radiológicos, perguntas e respostas médicas e classificação de imagens, etc. A natureza de código aberto do MedGemma facilita o acesso e é adequado para pesquisadores e desenvolvedores executarem em uma única GPU, reduzindo a barreira de desenvolvimento.

Lista de funções

Processamento de textos médicos: analisa e gera conteúdo de texto relacionado à medicina, como relatórios médicos, pares de perguntas e respostas e registros eletrônicos de saúde.
Compreensão de imagens médicas: suporta a análise de uma ampla variedade de imagens médicas, incluindo radiografias de tórax, imagens dermatológicas, imagens oftalmológicas e lâminas histopatológicas.
Raciocínio multimodal: combinação de dados de texto e imagem para fornecer recursos integrados de raciocínio médico, como a geração de relatórios radiológicos ou a interpretação do conteúdo da imagem.
Opções de variantes de modelo: modelo multimodal de 4B parâmetros (versão pré-treinada e com ajuste fino de comando) e modelo multimodal e de texto de 27B parâmetros (somente versão com ajuste fino de comando) estão disponíveis.
Otimização eficiente da inferência: os modelos são otimizados para serem executados em uma única GPU, reduzindo os requisitos de recursos de computação.
Código aberto e ajustável: o modelo é totalmente de código aberto e os desenvolvedores podem ajustá-lo para melhorar o desempenho de acordo com as necessidades específicas.

Usando a Ajuda

Instalação e implementação

Os modelos MedGemma são hospedados na plataforma Hugging Face e podem ser usados por desenvolvedores sem instalação complicada. Veja como funciona:

Acesso à página do modelo
show (um ingresso) https://huggingface.co/collections/google/medgemma-release-680aade845f90bec6a3f60c4Esta página contém links para downloads e documentação dos modelos paramétricos 4B e 27B. A página contém links para download e documentação dos modelos paramétricos 4B e 27B.
Preparação ambiental
- Certifique-se de que o Python 3.8 ou posterior esteja instalado.
- Instale a biblioteca Transformers para Hugging Face e execute o seguinte comando:
```
pip install transformers
```
- Instale o PyTorch ou o TensorFlow (escolha com base nos requisitos do modelo). Por exemplo, instale o PyTorch:
```
pip install torch
```
- Se você processar dados de imagem, precisará instalar bibliotecas adicionais, como Pillow::
```
pip install Pillow
```
Modelos para download
Na página do modelo Hugging Face, selecione a variante MedGemma desejada (por exemplo google/medgemma-4b-it talvez google/medgemma-27b-multimodal). Use o código a seguir para fazer download e carregar o modelo:
```
from transformers import AutoModel, AutoTokenizer
model_name = "google/medgemma-4b-it"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name)
```
O modelo 27B requer mais memória e recomenda-se uma GPU com pelo menos 16 GB de memória de vídeo.
ambiente operacional
Os modelos MedGemma são suportados em uma única GPU para desenvolvimento local ou implantação na nuvem. Recomendamos o uso do Google Cloud ou do Hugging Face Inference Endpoints para a implantação. https://gke-ai-labs.dev/ Diretrizes de implantação.

Funções principais

1. processamento de textos médicos

O MedGemma pode processar textos médicos, como gerar relatórios ou responder a perguntas médicas. O procedimento é o seguinte:

Preparação de entradaPreparação de texto relevante do ponto de vista médico, como uma parte do registro eletrônico de saúde ou uma pergunta médica.

exemplo de código::

input_text = "患者胸部 X 光显示肺部阴影，可能是什么原因？"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs, max_length=200)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

no finalO modelo gera possíveis explicações ou recomendações de diagnóstico, com base em seu treinamento em textos médicos.

2. compreensão de imagens médicas

O modelo multimodal do MedGemma suporta a análise de imagens médicas (por exemplo, raios X, imagens da pele). Procedimento:

Pré-processamento de imagensPNG: Converte a imagem em um formato aceitável para o modelo (por exemplo, PNG ou JPEG).

exemplo de código(modelo multimodal 4B como exemplo):

from PIL import Image
import torch
image = Image.open("chest_xray.png").convert("RGB")
inputs = tokenizer(text="描述这张胸部 X 光图像", images=[image], return_tensors="pt")
outputs = model.generate(**inputs, max_length=200)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

no finalO modelo gera descrições de imagens ou sugestões de diagnóstico, como "A imagem mostra uma sombra no lobo inferior do pulmão direito, o que pode indicar pneumonia".

3. raciocínio multimodal

Os modelos multimodais podem processar texto e imagens. Por exemplo, insira uma imagem de raio X e a pergunta "Essa imagem mostra sinais de pneumonia?" e o modelo combinará a imagem e o texto para gerar uma resposta. O modelo combinará a imagem e o texto para gerar uma resposta. A operação é semelhante à descrita acima, exceto pelo fato de que o tokenizer Passe texto e imagens no campo

4. ajuste fino do modelo

O desenvolvedor pode ajustar o modelo para tarefas específicas. As etapas são as seguintes:

Coleta de conjuntos de dados médicos específicos (por exemplo, imagens ou textos de radiologia personalizados).

Usando Hugging Face's Trainer API para ajuste fino:

from transformers import Trainer, TrainingArguments
training_args = TrainingArguments(
output_dir="./medgemma_finetuned",
per_device_train_batch_size=4,
num_train_epochs=3,
)
trainer = Trainer(model=model, args=training_args, train_dataset=your_dataset)
trainer.train()

Salve o modelo ajustado para uso posterior.

advertência

Risco de contaminação de dadosO MedGemma pode ter sido exposto a dados médicos disponíveis publicamente durante o pré-treinamento, e os desenvolvedores precisam validar o desempenho do modelo usando conjuntos de dados não publicados para garantir sua capacidade de generalização.
Uso não clínicoO MedGemma destina-se apenas a pesquisa e desenvolvimento e não deve ser usado para diagnóstico clínico real sem validação.
Requisitos de hardwareO modelo 4B é adequado para ambientes com poucos recursos, enquanto o modelo 27B requer uma GPU de maior desempenho.

cenário do aplicativo

Geração de relatórios radiológicos
Os radiologistas podem usar o MedGemma para analisar imagens de raios X ou de tomografia computadorizada e gerar um relatório preliminar para ajudá-los a interpretar rapidamente as imagens.
Sistema de perguntas e respostas médicas
Os desenvolvedores podem criar bots de perguntas e respostas médicas que usam os recursos de processamento de texto da MedGemma para responder a perguntas comuns de pacientes ou estudantes de medicina.
Análise de registros eletrônicos de saúde
As organizações de saúde podem usar o modelo multimodal 27B para analisar dados complexos de EHR, extrair informações importantes e otimizar os processos de tratamento.
Apoio à pesquisa médica
Os pesquisadores podem usar o MedGemma para analisar a literatura médica ou conjuntos de dados de imagens para acelerar o processo de pesquisa, por exemplo, para classificação de imagens dermatológicas ou análise histopatológica.

QA

O MedGemma pode ser usado para diagnóstico clínico real?
Atualmente, o MedGemma é usado apenas para pesquisa e desenvolvimento e não pode ser usado diretamente para fins de diagnóstico sem validação clínica. Os desenvolvedores precisam validar ainda mais a confiabilidade do modelo em tarefas específicas.
Qual é a diferença entre o modelo 27B e o modelo 4B?
O modelo 4B é adequado para ambientes com poucos recursos e oferece suporte a tarefas multimodais e textuais; o modelo 27B é dividido em versões textuais e multimodais, que são mais eficientes e adequadas para tarefas complexas, mas exigem recursos computacionais mais altos.
Como você lida com a contaminação de dados?
Validar modelos usando conjuntos de dados institucionais internos ou não públicos para evitar que os dados de pré-treinamento afetem os recursos de generalização.
Quais imagens médicas são compatíveis com o MedGemma?
Suporta uma ampla variedade de imagens médicas, como radiografias de tórax, imagens de dermatologia, imagens de oftalmologia e lâminas de histopatologia.

MedGemma: uma coleção de modelos de IA de código aberto para compreensão de textos e imagens médicas

Lista de funções

Usando a Ajuda

Instalação e implementação

Funções principais

1. processamento de textos médicos

2. compreensão de imagens médicas

3. raciocínio multimodal

4. ajuste fino do modelo

advertência

cenário do aplicativo

QA

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

MedGemma: uma coleção de modelos de IA de código aberto para compreensão de textos e imagens médicas

Lista de funções

Usando a Ajuda

Instalação e implementação

Funções principais

1. processamento de textos médicos

2. compreensão de imagens médicas

3. raciocínio multimodal

4. ajuste fino do modelo

advertência

cenário do aplicativo

QA

Artigos relacionados

Recomendado

Não consegue encontrar ferramentas de IA? Tente aqui!

Ferramentas populares de IA

Novos lançamentos

Ferramentas de IA mais recentes

Ferramenta de IA da estação de consulta rápida