Extração de filmes do site CineBancários

Este projeto tem como objetivo principal automatizar a extração dos filmes anúnciados via postagem no blog https://cinebancarios.blogspot.com/.

O CineBancários é um cinema de rua de Porto Alegre que existe desde 2008. Ele exibe filmes nacionais e estrangeiros de terça a domingo com preços acessíveis para a população.

O cinemaempoa é um site que agrega os filmes em exibição nos cinemas alternativos de Porto Alegre.

Este projeto surgiu da necessidade de melhorar o processo de coleta de dados, explorando o uso de modelos de linguagem via APIs para redução dos erros de extração e proposta de um sistema de alertas para checagem humana dos dados importados.

Abaixo, um diagrama em alto nível da estratégia utilizada.

Código do diagrama

```
    ---
    title "Extração dos filmes do site CineBancários"
    ---
    flowchart LR
        A[Download das postagens]
        B[Transformação em markdown]
        C[Envio para as LLMs]
        D[Comparação dos resultados]
        E[Geração de alertas]
        A -->B -->C -->D -->E
    ```

Cada uma das etapas foi implementada através de um script Python separado, conforme o diagrama abaixo:

Código do diagrama

```
    ---
    title "Sequência de scripts utilizados pelo projeto"
    ---
    flowchart TD
        A[rss_crawler] -->|baixa as postagens e converte para json| B[json_to_sqlite]
        B -.->|Salva as postagens| C[Banco de dados]
        B --> D[strip_to_markdown]
        D <-.-> |converte o html em .md| C
        D --> E[llm_outputs]
        E <-.-> |busca postagens| C
        E -.-> |salva filmes e horários| C
        E --> |envia prompt com a postagem|F[Gemini]
        E --> |envia prompt com a postagem|G[Deepseek]
```</pre>

Existe um backup dos filmes e horários extraídos pelos LLMs em https://drive.google.com/drive/folders/15_CunVPRZ3S5SHH7jaqWu3t03BWm6tjT?usp=sharing (drive público).

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
presentation		presentation
.gitignore		.gitignore
.python-version		.python-version
README.md		README.md
comparison_data_loader.py		comparison_data_loader.py
comparison_prompt.py		comparison_prompt.py
example.env		example.env
export_post_json.py		export_post_json.py
generate_comparison_report.py		generate_comparison_report.py
json_sorter.py		json_sorter.py
json_to_sqlite.py		json_to_sqlite.py
llm_outputs.py		llm_outputs.py
masterplan.md		masterplan.md
requirements.txt		requirements.txt
requirements_ok.txt		requirements_ok.txt
rss_crawler.py		rss_crawler.py
strip_to_markdown.py		strip_to_markdown.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Extração de filmes do site CineBancários

About

Uh oh!

Releases

Packages

Languages

niltonpimentel02/cinemaempoa-pythonsul

Folders and files

Latest commit

History

Repository files navigation

Extração de filmes do site CineBancários

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages