Overview

Dự án nhằm triển khai một Scrapper để thu thập dữ liệu các bài viết (giới hạn phân tích bao gồm 300 bài viết) từ trang web https://www.viettelidc.com.vn/. Sau đó thực hiện phân tích độ đọc hiểu của các bài viết thông qua chỉ số Gunning Fox Index.

Motivation

Dự án này hướng đến việc phân tích độ đọc hiểu của các bài viết. Từ đó, dự án có thể đề xuất những cải tiến để nâng cao thứ hạng bài viết cho Viettel. Dự án này được làm với mục đích cải thiện kỹ năng phân tích và xử lý dữ liệu .

Library & API References

Pandas: Xử lý và phân tích dữ liệu.
BeautifulSoup: Phân tích cú pháp HTML và XML.
PyYAML: Hỗ trợ đọc và ghi file YAML.
Matplotlib: Visualize và trực quan hóa dữ liệu.
Selenium: Tự động hóa trình duyệt để lấy dữ liệu.

Installation

Tạo môi trường ảo và cài đặt các thư viện cần thiết:

python3 -m venv scrapper_env
source scrapper_env/bin/activate
pip3 install -r requirements.txt

Khởi chạy chương trình:

Khởi tạo chương trình trên mọi trường dev

python3 main.py --target dev --thread False

Khởi tạo chương trình trên mọi trường production

python3 main.py --target prod --thread False

Cấu hình thông tin Scrapper bằng file YAML.

Workflow

Cấu hình Scrapper:
- Các thông tin Scrapper được khai báo trong file YAML.
Trích Xuất Đường Link Bài Viết:
- Thu thập danh sách link bài viết, kết quả trả về là một danh sách.
Xử Lý Trang Bài Viết:
- Module page_parse sẽ xử lý trích xuất nội dung dựa theo link bài viết.
Lưu Trữ Dữ Liệu:
- Các bài viết được lưu trữ dưới dạng file JSON.
Phân Tích:
- Tiến hành phân tích tại folder notebooks để đưa ra các kết luận.

Contributors

Phần tích và phát triển: Nguyen Tan Hoang ( Ethan Nguyen)
Linked profile : https://www.linkedin.com/in/ethannguyen2003

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
config		config
data		data
database		database
docs		docs
notebooks		notebooks
parsing		parsing
utils		utils
.gitignore		.gitignore
README.md		README.md
__init__.py		__init__.py
csv_builder.py		csv_builder.py
main.py		main.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Overview

Motivation

Library & API References

Installation

Workflow

Contributors

Analysis

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Overview

Motivation

Library & API References

Installation

Workflow

Contributors

Analysis

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages