SEO是一個超級繁瑣的工作,為了方便快速上文,這邊提供Google搜尋結果的爬蟲教學,方便大家快速找到熱門關鍵字來上。
- Python爬蟲步驟1:規劃
再正式coding前,就跟做簡報一樣,請先想好流程,爬蟲最重要的是要如何爬!該怎麼爬!
但其實也可以想成,使用者如何操作,我們就如何爬蟲。
流程步驟為:
1.開啟結婚吧
2.點選上方婚宴場地
3.隨機點選一間場地內容 (ex.晶宴會館竹北館)
4.進網站後,會先看到店家名稱
5.接著向下瀏覽,想看該廠商的關於我中的提供服務(此次爬蟲的內容)
- Python爬蟲步驟1:規劃
- Python爬蟲步驟2:引入需要的模組
- Python爬蟲步驟3:抓到需要的網站
這邊先為大家介紹request的用法,https://blog.gtwang.org/programming/python-requests-module-tutorial/
普通單純的網頁,只需要用最簡單的 GET
請求即可直接下載,以下是一個簡單的範例:
# 引入 requests 模組 import requests # 使用 GET 方式下載普通網頁 r = requests.get('https://www.google.com.tw/')
這裡我們以 GET
下載 Google 的網頁後,將結果儲存於 r
這個變數中,首先確認一下從伺服器傳回的狀態碼:
# 伺服器回應的狀態碼 print(r.status_code)
200
如果顯示 200
就代表沒問題。我們也可以利用以下這個判斷式來檢查狀態碼:
# 檢查狀態碼是否 OK if r.status_code == requests.codes.ok: print("OK")
在確認狀態碼沒問題之後,接著即可放心使用抓回來的資料,如果要查看原始的網頁 HTML 程式碼,可以從 r.text
取得:
# 輸出網頁 HTML 原始碼 print(r.text)