Python爬蟲教學,2020 SEO的人必學GOOGLE搜尋結果爬蟲!

SEO是一個超級繁瑣的工作,為了方便快速上文,這邊提供Google搜尋結果的爬蟲教學,方便大家快速找到熱門關鍵字來上。

  1. Python爬蟲步驟1:規劃

再正式coding前,就跟做簡報一樣,請先想好流程,爬蟲最重要的是要如何爬!該怎麼爬!

但其實也可以想成,使用者如何操作,我們就如何爬蟲。

流程步驟為:
1.開啟結婚吧

2.點選上方婚宴場地

3.隨機點選一間場地內容 (ex.晶宴會館竹北館)

4.進網站後,會先看到店家名稱

5.接著向下瀏覽,想看該廠商的關於我中的提供服務(此次爬蟲的內容)

  1. Python爬蟲步驟1:規劃
  2. Python爬蟲步驟2:引入需要的模組
  3. Python爬蟲步驟3:抓到需要的網站

這邊先為大家介紹request的用法,https://blog.gtwang.org/programming/python-requests-module-tutorial/

普通單純的網頁,只需要用最簡單的 GET 請求即可直接下載,以下是一個簡單的範例:

# 引入 requests 模組
import requests
# 使用 GET 方式下載普通網頁
r = requests.get('https://www.google.com.tw/')

這裡我們以 GET 下載 Google 的網頁後,將結果儲存於 r 這個變數中,首先確認一下從伺服器傳回的狀態碼:

# 伺服器回應的狀態碼
print(r.status_code)
200

如果顯示 200 就代表沒問題。我們也可以利用以下這個判斷式來檢查狀態碼:

# 檢查狀態碼是否 OK
if r.status_code == requests.codes.ok:
  print("OK")

在確認狀態碼沒問題之後,接著即可放心使用抓回來的資料,如果要查看原始的網頁 HTML 程式碼,可以從 r.text 取得:

# 輸出網頁 HTML 原始碼
print(r.text)

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *