Dự án nhằm triển khai một Scrapper để thu thập dữ liệu các bài viết (giới hạn phân tích bao gồm 300 bài viết) từ trang web https://www.viettelidc.com.vn/. Sau đó thực hiện phân tích độ đọc hiểu của các bài viết thông qua chỉ số Gunning Fox Index.
Dự án này hướng đến việc phân tích độ đọc hiểu của các bài viết. Từ đó, dự án có thể đề xuất những cải tiến để nâng cao thứ hạng bài viết cho Viettel. Dự án này được làm với mục đích cải thiện kỹ năng phân tích và xử lý dữ liệu .
- Pandas: Xử lý và phân tích dữ liệu.
- BeautifulSoup: Phân tích cú pháp HTML và XML.
- PyYAML: Hỗ trợ đọc và ghi file YAML.
- Matplotlib: Visualize và trực quan hóa dữ liệu.
- Selenium: Tự động hóa trình duyệt để lấy dữ liệu.
- Tạo môi trường ảo và cài đặt các thư viện cần thiết:
python3 -m venv scrapper_env
source scrapper_env/bin/activate
pip3 install -r requirements.txt- Khởi chạy chương trình:
- Khởi tạo chương trình trên mọi trường dev
python3 main.py --target dev --thread False- Khởi tạo chương trình trên mọi trường production
python3 main.py --target prod --thread False- Cấu hình thông tin Scrapper bằng file YAML.
-
Cấu hình Scrapper:
- Các thông tin Scrapper được khai báo trong file YAML.
-
Trích Xuất Đường Link Bài Viết:
- Thu thập danh sách link bài viết, kết quả trả về là một danh sách.
-
Xử Lý Trang Bài Viết:
- Module
page_parsesẽ xử lý trích xuất nội dung dựa theo link bài viết.
- Module
-
Lưu Trữ Dữ Liệu:
- Các bài viết được lưu trữ dưới dạng file JSON.
-
Phân Tích:
- Tiến hành phân tích tại folder
notebooksđể đưa ra các kết luận.
- Tiến hành phân tích tại folder
- Phần tích và phát triển: Nguyen Tan Hoang ( Ethan Nguyen)
- Linked profile : https://www.linkedin.com/in/ethannguyen2003