Este projeto tem como objetivo principal automatizar a extração dos filmes anúnciados via postagem no blog https://cinebancarios.blogspot.com/.
O CineBancários é um cinema de rua de Porto Alegre que existe desde 2008. Ele exibe filmes nacionais e estrangeiros de terça a domingo com preços acessíveis para a população.
O cinemaempoa é um site que agrega os filmes em exibição nos cinemas alternativos de Porto Alegre.
Este projeto surgiu da necessidade de melhorar o processo de coleta de dados, explorando o uso de modelos de linguagem via APIs para redução dos erros de extração e proposta de um sistema de alertas para checagem humana dos dados importados.
Abaixo, um diagrama em alto nível da estratégia utilizada.
Código do diagrama
```
---
title "Extração dos filmes do site CineBancários"
---
flowchart LR
A[Download das postagens]
B[Transformação em markdown]
C[Envio para as LLMs]
D[Comparação dos resultados]
E[Geração de alertas]
A -->B -->C -->D -->E
```
Cada uma das etapas foi implementada através de um script Python separado, conforme o diagrama abaixo:
Código do diagrama
```
---
title "Sequência de scripts utilizados pelo projeto"
---
flowchart TD
A[rss_crawler] -->|baixa as postagens e converte para json| B[json_to_sqlite]
B -.->|Salva as postagens| C[Banco de dados]
B --> D[strip_to_markdown]
D <-.-> |converte o html em .md| C
D --> E[llm_outputs]
E <-.-> |busca postagens| C
E -.-> |salva filmes e horários| C
E --> |envia prompt com a postagem|F[Gemini]
E --> |envia prompt com a postagem|G[Deepseek]
```</pre>
Existe um backup dos filmes e horários extraídos pelos LLMs em https://drive.google.com/drive/folders/15_CunVPRZ3S5SHH7jaqWu3t03BWm6tjT?usp=sharing (drive público).