Skip to content

pentalpha/hermes-chamadas-sinteticas

Repository files navigation

Fake Emergencies BR / Dataset de Chamadas de Emergência Sintéticas (PT-BR)

Dataset de chamadas de emergência criadas com Geração Procedural + LLMs, combinando geração de roteiros (Text Generation LLMs) e síntese de voz (TTS).

A criação deste dataset faz parte do Projeto Hermes, uma realização do Ministério da Justiça e Segurança Pública (MJSP) e do Ministério da Gestão e Inovação nos Serviços Públicos (MGI).

A fase de concepção, planejamento e prototipação do Projeto Hermes envolve o estudo e comparação de diferentes LLMs quando aplicados à lingua portuguesa. Para favorecer a transparência das decisões do projeto, esses estudos e comparações estão sendo baseados em dados abertos criados neste repositório.

Todas as emergências aqui tratam de pessoas fictícias em situações fictícias, com propósito de simulação.

O dataset final está hospedado no portal HuggingFace: pitagoras-alves/fake-emergencies-br.

Geração dos datasets

Instalação do ambiente

conda env create -f dataset_generation.yml

Pipeline de geração

conda activate dataset_generation
#Exportar chave de API do google maps ou colocar em um arquivo '.env'
$ export GOOGLE_API_KEY=<google_maps_key>
$ python get_ref_points.py
$ python make_address_descriptions.py
#python main.py [gemini3|azure|ollama] <numero_de_roteiros> [all|<estado_brasileiro>] <Opcional: Exemplos de roteiros para contexto>
$ python main.py gemini3 100 Distrito_Federal
$ python fix_missing_infos.py
$ python text_to_speech.py
$ python make_dataset.py
$ python classify_emergencies.py
$ python upload_dataset.py

Detalhes

  • Audio: 16kHz WAV
  • Idioma: Português (Brasil)
  • Conteúdo: Simulação de chamadas para bombeiros/polícia.
  • Origem: Dados 100% sintéticos gerados para fins de pesquisa em IA.

Estrutura

O dataset inclui (dentre outros) o áudio, a transcrição (roteiro), dados do solicitante simulado e localização geoespacial aproximada.

Curadoria

  • Pitágoras Alves

Apoio

Microsoft Brasil Google Cloud Platform

Licença:

MIT

About

Dataset de chamadas de emergência criadas com Geração Procedural + LLMs

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages