Fake Emergencies BR / Dataset de Chamadas de Emergência Sintéticas (PT-BR)

Dataset de chamadas de emergência criadas com Geração Procedural + LLMs, combinando geração de roteiros (Text Generation LLMs) e síntese de voz (TTS).

A criação deste dataset faz parte do Projeto Hermes, uma realização do Ministério da Justiça e Segurança Pública (MJSP) e do Ministério da Gestão e Inovação nos Serviços Públicos (MGI).

A fase de concepção, planejamento e prototipação do Projeto Hermes envolve o estudo e comparação de diferentes LLMs quando aplicados à lingua portuguesa. Para favorecer a transparência das decisões do projeto, esses estudos e comparações estão sendo baseados em dados abertos criados neste repositório.

Todas as emergências aqui tratam de pessoas fictícias em situações fictícias, com propósito de simulação.

O dataset final está hospedado no portal HuggingFace: pitagoras-alves/fake-emergencies-br.

Geração dos datasets

Instalação do ambiente

conda env create -f dataset_generation.yml

Pipeline de geração

conda activate dataset_generation
#Exportar chave de API do google maps ou colocar em um arquivo '.env'
$ export GOOGLE_API_KEY=<google_maps_key>
$ python get_ref_points.py
$ python make_address_descriptions.py
#python main.py [gemini3|azure|ollama] <numero_de_roteiros> [all|<estado_brasileiro>] <Opcional: Exemplos de roteiros para contexto>
$ python main.py gemini3 100 Distrito_Federal
$ python fix_missing_infos.py
$ python text_to_speech.py
$ python make_dataset.py
$ python classify_emergencies.py
$ python upload_dataset.py

Detalhes

Audio: 16kHz WAV
Idioma: Português (Brasil)
Conteúdo: Simulação de chamadas para bombeiros/polícia.
Origem: Dados 100% sintéticos gerados para fins de pesquisa em IA.

Estrutura

O dataset inclui (dentre outros) o áudio, a transcrição (roteiro), dados do solicitante simulado e localização geoespacial aproximada.

Curadoria

Pitágoras Alves

Apoio

Licença:

MIT

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Fake Emergencies BR / Dataset de Chamadas de Emergência Sintéticas (PT-BR)

Geração dos datasets

Instalação do ambiente

Pipeline de geração

Detalhes

Estrutura

Curadoria

Apoio

Licença:

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
apis		apis
data		data
generated		generated
.gitignore		.gitignore
README.md		README.md
classify_emergencies.py		classify_emergencies.py
dataset_generation.yml		dataset_generation.yml
fix_missing_infos.py		fix_missing_infos.py
get_ref_points.py		get_ref_points.py
main.py		main.py
make_address_descriptions.py		make_address_descriptions.py
make_dataset.py		make_dataset.py
requirements.txt		requirements.txt
text_to_speech.py		text_to_speech.py
upload_dataset.py		upload_dataset.py

Folders and files

Latest commit

History

Repository files navigation

Fake Emergencies BR / Dataset de Chamadas de Emergência Sintéticas (PT-BR)

Geração dos datasets

Instalação do ambiente

Pipeline de geração

Detalhes

Estrutura

Curadoria

Apoio

Licença:

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages