Skip to content

niltonpimentel02/cinemaempoa-pythonsul

 
 

Repository files navigation

Extração de filmes do site CineBancários

Este projeto tem como objetivo principal automatizar a extração dos filmes anúnciados via postagem no blog https://cinebancarios.blogspot.com/.

O CineBancários é um cinema de rua de Porto Alegre que existe desde 2008. Ele exibe filmes nacionais e estrangeiros de terça a domingo com preços acessíveis para a população.

O cinemaempoa é um site que agrega os filmes em exibição nos cinemas alternativos de Porto Alegre.

Este projeto surgiu da necessidade de melhorar o processo de coleta de dados, explorando o uso de modelos de linguagem via APIs para redução dos erros de extração e proposta de um sistema de alertas para checagem humana dos dados importados.

Abaixo, um diagrama em alto nível da estratégia utilizada.

Código do diagrama
```
    ---
    title "Extração dos filmes do site CineBancários"
    ---
    flowchart LR
        A[Download das postagens]
        B[Transformação em markdown]
        C[Envio para as LLMs]
        D[Comparação dos resultados]
        E[Geração de alertas]
        A -->B -->C -->D -->E
    ```

Cada uma das etapas foi implementada através de um script Python separado, conforme o diagrama abaixo:

Código do diagrama
```
    ---
    title "Sequência de scripts utilizados pelo projeto"
    ---
    flowchart TD
        A[rss_crawler] -->|baixa as postagens e converte para json| B[json_to_sqlite]
        B -.->|Salva as postagens| C[Banco de dados]
        B --> D[strip_to_markdown]
        D <-.-> |converte o html em .md| C
        D --> E[llm_outputs]
        E <-.-> |busca postagens| C
        E -.-> |salva filmes e horários| C
        E --> |envia prompt com a postagem|F[Gemini]
        E --> |envia prompt com a postagem|G[Deepseek]
```</pre>

Existe um backup dos filmes e horários extraídos pelos LLMs em https://drive.google.com/drive/folders/15_CunVPRZ3S5SHH7jaqWu3t03BWm6tjT?usp=sharing (drive público).

About

Repositório com o desenvolvimento para a apresentação na PySul 2025.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • HTML 57.6%
  • JavaScript 25.5%
  • Python 15.6%
  • CSS 1.3%