【專案】Python自動化爬蟲專案

利用schedule套件定時抓取檔案

2023/06/05

此專案為「定時」抓取網頁的檔案，並搭配登入下載驗證，做到「自動化」更新數據資料，無須再以人工方式定期手動下載。

接手時已經完成約7成，是執行剩下3成的排程抓取關鍵。主要為補上後續的排程，與檔案處理的功能撰寫。除了功能的實作，開發的同時，也將程式進行重構，將其變得更加精簡，每個執行的函式顆粒度更小。

負責專案的接續開發，與需求端進行溝通討論。確認「最後定案」的實際執行排程，敏捷式地進行頻繁的測試與除錯，直到需求的最終拍板定案，將專案做最後的結案收尾，才正式完成這個案子。

主要使用了以下技術與套件：python的虛擬環境venv, schedule, time，以及pm2將其封裝為完整的服務。

因為其他主專案開發的時程，此專案是在其他空閒時間才開發，因此為時1~2個月才陸續完成功能的開發。在正式發布之前，進行QA測試以驗證資料的正確性，以及檢驗排程的功能是否正常，最後大約在第三個月左右，才正式啟用服務。

服務啟用後，偶爾進行「無預期發生之錯誤」的debug，陸續完善功能，後續執行數個月的期間，都沒有發生問題，很順利如預期地執行自動化排程下載。

繼續閱讀 Related posts