Dataset de chamadas de emergência criadas com Geração Procedural + LLMs, combinando geração de roteiros (Text Generation LLMs) e síntese de voz (TTS).
A criação deste dataset faz parte do Projeto Hermes, uma realização do Ministério da Justiça e Segurança Pública (MJSP) e do Ministério da Gestão e Inovação nos Serviços Públicos (MGI).
A fase de concepção, planejamento e prototipação do Projeto Hermes envolve o estudo e comparação de diferentes LLMs quando aplicados à lingua portuguesa. Para favorecer a transparência das decisões do projeto, esses estudos e comparações estão sendo baseados em dados abertos criados neste repositório.
Todas as emergências aqui tratam de pessoas fictícias em situações fictícias, com propósito de simulação.
O dataset final está hospedado no portal HuggingFace: pitagoras-alves/fake-emergencies-br.
conda env create -f dataset_generation.yml
conda activate dataset_generation
#Exportar chave de API do google maps ou colocar em um arquivo '.env'
$ export GOOGLE_API_KEY=<google_maps_key>
$ python get_ref_points.py
$ python make_address_descriptions.py
#python main.py [gemini3|azure|ollama] <numero_de_roteiros> [all|<estado_brasileiro>] <Opcional: Exemplos de roteiros para contexto>
$ python main.py gemini3 100 Distrito_Federal
$ python fix_missing_infos.py
$ python text_to_speech.py
$ python make_dataset.py
$ python classify_emergencies.py
$ python upload_dataset.py
- Audio: 16kHz WAV
- Idioma: Português (Brasil)
- Conteúdo: Simulação de chamadas para bombeiros/polícia.
- Origem: Dados 100% sintéticos gerados para fins de pesquisa em IA.
O dataset inclui (dentre outros) o áudio, a transcrição (roteiro), dados do solicitante simulado e localização geoespacial aproximada.
- Pitágoras Alves
![]() |
|---|
MIT
