【祿】邁向財務「自由」之路 II — 育成收發 Telegram 的智能秘書(上篇)

筆者的智能秘書已從只懂發出電郵,進化到懂得接收及發出 Telegram 短訊了 :D

筆者去年發表 Step-by-step 開發 Google Sheet 智能秘書的教學文章,利用 ImportXML 和簡單兩句發送電郵的程序,自動定時提示六合彩下期獎金,幸獲不少讀者的好評。

然而 Google Sheets + Email 這個組合也有不少短處和限制,也許嘗試過一起動手做的讀者也曾感受一二:
  • ImportXML 函數擱取資訊的表現不很穩定,對某些網站的標的偶爾會傳回 #N/A
  • 基於試算表格式的限制,只能擱取資訊的原型,如要進一步處理資訊會頗為麻煩,例如參考筆者回覆讀者 Nelia 的提問,在擱取牛記匯率時需要將幾幅圖片蘊含的數字以及小數點併湊在一起,要在 Google Sheets 處理便很費時失事
  • 資訊的長度不一(也可能是動態),例如不同股票的派息紀錄,長度和所載資訊也不一,很難用統一的試算表格式處理
  • Google Script 每日有頗低的運算資源上限,筆者曾嘗試開發股價數據資料庫,但每 15 分鐘處理一隻股票也爆錶
誠如筆者在半桶水爸爸網誌留言,程式碼是現代語言,編程是現代人不能不認識的技巧,所以筆者把心一橫,將智能秘書的核心技術由 Google Sheets + Script 改寫為 Python 並放上雲端運算,同時賦予秘書收發 Telegram 短訊的能力,一次過解決以上問題。

這回讓筆者以牛記匯率為例,實戰如何用幾句簡單的程式碼擱取網路資訊,並以自己喜歡的方式呈現出來。上篇主要集中討論擱取資訊的技巧,而下篇則集中討論資訊的展現、與 Telegram 的聯繫,以及如何將程序放上雲端運算。

跟去年文章一樣,擱取的對象只是示例,筆者旨在刺激讀者思考,一理通百理明。另外,請注意網絡資訊的版權屬於相關資訊提供者,本篇及下篇文章只作教學及示範用途。


上篇:利用 Python 及其程序包 Beautiful Soup 輕鬆取得並整理匯率資訊


1. 準備開發環境

首先需要準備的是 Python 的開發環境。現在的開發者有福了,因為 Google 最近支援雲端 Python Notebook,也 Pre-install 了一系列常用的程序包(包括下文提及的 requests 和 BeautifulSoup),甚麼安裝也不用做已經可以著手開發自己的程序。Google 用戶只需到 Co-laboratory (colab.research.google.com),然後新增一個 Python 2 Notebook 便可。稍後開發完成,只需把整個程序碼檔案下載(「File」->「Download .py」)便行,方便得不得了。

如果希望在自己的電腦上進行開發,Mac 的用家會比較方便,因為 MacOS 已內置 Python 2.7,直接在 Terminal 輸入 Python 便能進入環境。Windows 的用家也許需要 Google 一下如何安裝 Python 2.7,反正網路上有海量資源,就當成是第一個練習吧!另外,我們會用到兩個程序包(Package),分別是 requests 和 BeautifulSoup(留意在 Python 中,大小寫是有分別的)。安裝 Python 後,我們可以在 Mac Terminal / Windows Command Prompt (往後簡單以 Terminal 代表)用 pip 命令安裝這兩個程序包(需要網路連線): 

  $ pip install requests
  $ pip install beautifulsoup4 

留意 $ 號並不是輸入,而是 Terminal 自動生成的提示碼。至於關於這兩個程序包的詳細資訊,可以參考: 

進入 Python 開發環境(在 Google Co-laboratory 新增 Python 2 Notebook,或者在 Terminal 輸入 $ python,此時提示碼變成 >>> 代表進入成功,否則安裝可能出了問題),輸入以下的程序碼以載入兩個剛下載了的程序包。 

  >>> import requests 
  >>> from bs4 import BeautifulSoup 

留意在 Google Colaboratory 需要按 Shift + Enter 去執行程式碼。 

如果沒有輸出(Terminal 的話,提示碼維持 >>>),代表成功安裝,可以進入下一個步驟。

往後的討論主要假設以 Google Colaboratory 作為開發環境,因為相信有能力操作 Terminal 的讀者應該有能力找到相應的處理。 





2. 探索牛記匯率網頁原始碼 

這一個步驟所用到的技巧,跟系列上一篇探索馬會六合彩網頁的技巧類似。 

讓我們先在瀏覽器探索一下。打開牛記發佈匯率的網頁(http://www.nkcl.com.hk/change-ch.php),利用 Inspect Element 並從原始碼檔了解匯率的排列方式,不難發現其頁面的結構相對簡單: 
  • 所有的匯率資訊都放在頁面上第一個 <table> 裏面
  • <table>的首兩行(<tr>)是標題,並沒有匯率資訊的存在
  • 從第三個 <tr> 開始,每行有四格( <td>)。第一格是國旗和貨幣全名,第二格是貨幣國際通用代碼,第三格是買入價,最後一格是賣出價。
  • 買入價和賣出價以圖片而非文字表示。圖片的名稱(即 <img src="xxx" /> 的 xxx)與其標示數字相符,例如 1.png 代表數字「1」。小數點的圖片名稱則是 vir.png。
  • 我們希望取得的是貨幣代碼、買入價和賣出價,當中後兩者以數字而非圖片表示,並以有條理的方式(例如列表)儲存好。
有了以上對目標擱取資料的認識,已經足夠完成任務了。接下來,只剩下將以上各點編寫成程序了!




3. 將對標的物的描述換成程式碼 

3a. 下載目標網頁並建立結構方便資訊擱取 

回到 Python 開發頁面。第一步是讓程序「瀏覽」即下載目標網頁。先定義我們的目標網頁網址:

  url = "http://www.nkcl.com.hk/change-ch.php" 


按 Shift + Enter (下文略),此時應該沒有輸出。

利用 requests 程序包,將網頁內容從互聯網下載並讀進 r 物件內(r 的名稱可以自定義,另外這一步很明顯需要網絡連線):

  r = requests.get(url).content

此時如果我們檢視 r 的內容(可以用 print r),就會發現 r 只是目標網頁的原始純文字檔;此時對於 Python 來說,文字檔只是一堆沒有意義的符號的集合。




要為 r 賦予意義,即要讓 Python 懂得閱讀這純文字檔的結構,例如讓它知道哪一個 <table> 裏面有哪一些 <tr>,<tr> 裏面又有 <td> 這些從屬關係,而每一個 tag 各自有其標示的屬性,就是簡單而強大的工具包 BeautifulSoup 的工作了。只消以下一句簡單程式碼,即能為 r 賦予意義,回傳的是經過整理、蘊含所有屬性和從屬關係的 BeautifulSoup 物件「Soup」:

  Soup = BeautifulSoup(r, "html.parser")

此時如果讀者用 print Soup 的話,見到的也只是同一個原始碼檔;但請放心,只要沒有 Error 跑出來的話,Python 已經明白了整個 HTML 檔的結構了!有了這個經整理的 Soup ,我們就可以就著對所要求標的物的認識,輕鬆從中尋找並擱取所需資訊。

(至此可能對沒有編程經驗的讀者來說是有點抽象,但只要繼續閱讀下去相信讀者必定能找到端倪,加油!)



3b. 鎖定網頁的資訊目標

就着第 2 節擱取要求的第一點「所有的匯率資訊都放在頁面上第一個 <table> 裏面」,我們要尋找的是 Soup 內第一個 <table> 物件。要取得第一個物件,方法是利用 find 方法:

  TargetTable = Soup.find("table")

所回傳的 TargetTable 其實是一個較小的 BeautifulSoup 物件,內含網頁中第一個 <table> 至 </table> 內所有的屬性和子物件。用一下 print TargetTable 看看,應該就能讓讀者安心了。由於我們需要的匯率資訊都在這個 <table> 內,有了 TargetTable 便能方便收窄其後程式碼的搜索範圍。 





就著要求第二點「<table> 的首兩行(<tr>)是標題,並沒有匯率資訊的存在」,我們要尋找 TargetTable 內所有 <tr> 物件,並去除首兩行。

要取得所有物件,方法是利用 find_all 方法:

  AllRows = TargetTable.find_all("tr")

所回傳的 AllRows 是一個 Python 的列表(List)物件,這個 List 的每一個元素(Elememt)各自是一個 BeautifulSoup 物件,每一個 BeautifulSoup 物件對應在 TargetTable 內找到的一個 <tr>...</tr>。即在概念上,AllRows = [ Soup_tr1, Soup_tr2, ..., Soup_trN ]。

至於除去首兩行,即在 Python List 中除去首兩個 Elements,則是輕而易舉的事:

  TargetRows = AllRows[2:]

留意上述數句的程式碼其實可以簡單一行輕鬆完成: 


  TargetRows = Soup.find("table").find_all("tr")[2:]

這是由於 find 方法接受一個 BeautifulSoup 物件後,回傳的又是另一個BeautifulSoup 物件。這種連鎖寫法,簡單方便直接之餘,又能方便人類閱讀(很容易就能理解為「TargetRows 就是在網頁 Soup 內找第一個 <table>,然後在內找所有 <tr>,再回傳除首兩項外所有的 <tr> 項目」),這就是 Python 之美。



3c. 建立「字典」儲存匯率資訊


接下來我們就可以從每一個 <tr> 行(即 TargetRows 裏面每一個 Element),擱取需要的貨幣代碼、買入價和賣出價。但在討論下去之前,我們先要考慮一下在擱取得實際資料後,我們打算如何有系統、有條理地儲存起來,方便發送 Telegram 短訊的部分使用。

我們的目的,是建立一個「字典」,可以讓我們利用外幣的代號,查詢其買入和賣出價。如果這個字典叫做 FXDatabase,我們希望它讀畢網頁的資訊後,效果如下:

  print FXDatabase['GBP']['Buy']
  10.01

  print FXDatabase['GBP']['Sell']
  10.06

  print FXDatabase['CHF']['Buy']
  7.84

  print FXDatabase['CHF']['Sell']
  7.96

在 Python 裏的確有一種叫做「字典」(Dictionary)的物件,能不費吹灰之力就能做到上述效果。如果我們一早知道英鎊和瑞士法郎的匯價,以上的字典可以如此定義:

  FXDatabase = {
    'GBP' : {'Buy' : 10.01 , 'Sell' : 10.06 },
    'CHF' : {'Buy' : 7.84 , 'Sell' : 7.96 }
    }


留意在 Python 中,字典是以花括號 { } 定義的;另嚴格來說,FXDictionary 是「字典的字典」(留意兩層花括號結構)。

但現在的問題是,我們未讓程式「閱讀」網頁前,並不知道每一種外幣的匯價,甚至連有甚麼外幣提供也不知道(為增加程式的可用性,請盡可能不要將外幣列表手動抄下來然後手動的對號入座,試想像牛記可以隨時更改其可供兌換的貨幣種類)。所以,接下來我們得讓程式從每一個 <tr> 行擱取所需資訊,並續一寫進我們的字典。

要這樣做,我們得先建立一部「空字典」:

  FXDatabase = {}

然後就可以開始命令程式從每一個 <tr> 行進行閱讀並寫進字典裏。要指令程式將 TargetRows 的每個 Element 執行一遍,先要定義一個 for 迴圈:

  for Row in TargetRows:

此時請不要按 Shift + Enter,改用 Enter 直至整個 for 迴圈編寫完畢。同時請留意,Python 是用縮排(Indentation)去區隔不同程序碼的集合的,所以由下一行起,所輸入的在 for 迴圈內的程序碼,請謹記在前面加相同數目的空格。

好了,第一個我們希望取得的資訊是「貨幣國際通用代碼」,存在每一行的第二個 <td> 裏。由於 TargetRows 是一堆 BeautifulSoup 物件的表列,所以 Row 就是一個 BeautifulSoup 物件,可以用我們之前使用過的方法處理。聰明的讀者應該已經想到,可以利用 find_all 函數將所有 <td> 找出來:

  TDs = Row.find_all("td")

然後告訴 Python 需要 TDs 的第二個 Element (注意第一個 Element 的 Index 為 0、第二個 Element 的 Index 為 1,如類推):

  TDCurrency = TDs[1]

此時,TDCurrency 所包含的就是我們目標的那一個 <td> 格的 BeautifulSoup 物件,所以當然也包含了定義該 TD 相關屬性和其他子物件。例如,在英鎊匯價的那一行,我們得到的將會是(部分從略):

  TDCurrency = '<td style="..." width="10%">GBP</td>'

我們需要的,就只是 TDCurrency 裏顯示出來的文字部分,即上面的「GBP」三個字。從 BeautifulSoup 物件取得顯示文字的方法是 text。筆者再後加一個 .encode(‘utf-8’),因為網頁是用 UTF-8 編碼寫成,如此便能讓 Python 對擱取的文字進行相應的解碼:

  Currency = TDCurrency.text.encode('utf-8')

當然,以上的幾句程序可以簡潔的用一行表達:

  Currency = Row.find_all("td")[1].text.encode('utf-8')

至此貨幣代碼擱取完成。之後便輪到買入和賣出價,分別是 <tr> 的第三和第四個 <td>:

  TDBuy = Row.find_all("td")[2]
  TDSell = Row.find_all("td")[3]

由於牛記匯率很聰明地利用圖片而非文字表示匯率,所以我們不可以直接用 text 方法取得匯率資訊。我們得額外做一些功夫,將 <td>...</td> 內的資訊換成是匯率數字。為了不打亂我們的邏輯思考,現在讓我們先假設有一個叫做「GetFX」的自定義的函數,能做出這樣的轉換:

  Buy = GetFX(TDBuy)
  Sell = GetFX(TDSell)

至此我們已經取得所需要的三項資訊,即「貨幣代碼」Currency、「買入價」Buy 和「賣出價」Sell,可以將資料寫入預先建立的字典:

  FXDatabase[Currency] = { 'Buy' : Buy, 'Sell' : Sell }

好了, for 迴圈要執行的動作已編寫完成。但請先不要按 Shift + Enter 執行,因為不要忘記我們其中一步假設了「GetFX」自定義函數的存在,強行執行只會招致程式錯誤:



(在 Terminal 開發的朋友,對不起了 :P)




3d. 建立函數將圖片換成文字再換成數字匯率

現在讓我們先離開 for 迴圈的編寫,在 Google Colaboratory 建立一個新的 Code Cell 去定義 GetFX 函數。前文說過, GetFX 的作用,是將擱取到的 <td>...</td> 內的資訊換成是匯率數字。例如,行文之日,英鎊買入價為 10.01,從上面的程序我們將會讀到(部份從略):

  TDBuy = '<td align="center" style=...>
           <img src="images/1.png"/>
           <img src="images/0.png"/>
           <img src="images/vir.png"/>
           <img src="images/0.png"/>
           <img src="images/1.png"/></td>'

而現在我們就要編寫一個小函數,將 TDBuy 中間的 <img> 煎皮拆骨,使得:

  print GetFX(TDBuy)
  10.01

這回請容許筆者先展示完成的函數,再逐行解釋:

  def GetFX(TD):
      FX = ""
      for ImgTag in TD.find_all('img'):
          Src = ImgTag['src']
          ImgName = Src[(Src.find("/")+1):Src.find(".png")]
          Digit = "." if ImgName == "vir" else ImgName
          FX = FX + Digit
      return float(FX)

  • def GetFX(TD):
    在這行我們定義一個名為 GetFX 的函數,接受一個叫做 TD 的 BeautifulSoup 物件作為參數。TD 就是我們在上面 for 迴圈中傳入蘊含匯率圖片的 <td>...</td> BeautifulSoup 物件。
  • FX = ""
    由於我們要將每一張圖片逐一幻化成文字(每一張圖片將得到一個數字符或小數點),繼而合併再變成匯率數字,而我們不知道 <td> 中圖片的數量,所以我們又得利用 for 迴圈,而在迴圈之前我們先定義一個空字串去裝著逐一得到的文字。
  • for ImgTag in TD.find_all('img'):
    建立 for 迴圈,讓程序將 <td> 內找到的所有 <img> 也逐一執行一次以下的程式碼,就是從 <img> 中抽取所需的字符。
  • Src = ImgTag['src']
    字符存在 <img> 的檔案名稱內,所以我們感興趣的是 <img> 的 src 屬性。Src 執行的結果就是字串 "images/X.png",而 "X就是我們希望得到的字符。
  • ImgName = Src[(Src.find("/")+1):Src.find(".png")]
    要從 "images/X.png" 抽出 "X",方法就是找出字符 "/" 和 ".png" 在 Src 的位置,然後在 Src 本身取得相應位置的字符。這方法跟 Excel 中的 MID() 和 FIND() 混合使用的原理是一樣的。
  • Digit = "." if ImgName == "vir" else ImgName
    這步很容易明白,如果讀到的圖片檔名是 "vir",代表它是小數點,應以 "." 取代之;否則所需字符就是圖片檔名本身。
  • FX = FX + Digit
    將新得到的字符置於代表整個匯率的 FX 最後方,然後重新跑一次 for 迴圈去閱讀下一個字符,直至 <td> 內所有 <img> 完成為止。
  • return float(FX)
    最後,將得到的整個匯率 FX(字串)利用 float 函數轉為數字,並作為整個 GetFX 函數的結果回傳(return)。

現在我們只需先執行這個函數的 Code Cell 將其定義,然後再返回上面的 for 迴圈再執行一次,Error 就會消失。雖然 for 迴圈沒有回傳,但我們的匯率字典已經在瞬間編寫完成了!

如果不相信的話,可以試著執行以下的指令:

  print FXDatabase
  print FXDatabase['CHF']
  print FXDatabase['GBP']['Sell']


雖然開發過程好像很漫長,但回首一看,我們只是用了短短 22 行的程式碼,已經取得了所需的資訊,並有系統地儲存好。 

以下列出本篇訖今整個程序碼,Google Colaboratory 的使用者可以下載 .py 文檔再加以修飾得到;使用 Terminal 的開發者可以另開新純文字檔,將我們的 Python 程序碼儲存成以下 Python Script 檔案:

  ## NgauKeeFX.py

  import requests
  from bs4 import BeautifulSoup

  def GetFX(TD):
      FX = ""
      for ImgTag in TD.find_all('img'):
          Src = ImgTag['src']
          ImgName = Src[(Src.find("/")+1):Src.find(".png")]
          Digit = "." if ImgName == "vir" else ImgName
          FX = FX + Digit
      return float(FX)

  url = "http://www.nkcl.com.hk/change-ch.php"
  r = requests.get(url).content
  Soup = BeautifulSoup(r, "html.parser")
  TargetRows = Soup.find("table").find_all("tr")[2:]

  FXDatabase = {}

  for Row in TargetRows:
      Currency = Row.find_all("td")[1].text.encode('utf-8')
      TDBuy = Row.find_all("td")[2]
      TDSell = Row.find_all("td")[3]
      Buy = GetFX(TDBuy)
      Sell = GetFX(TDSell)
      FXDatabase[Currency] = { 'Buy' : Buy, 'Sell' : Sell }


至此,上篇要討論的,從網際網路擱取資訊的技巧已完成討論。下篇我們會將擱取到的匯率資訊,以喜歡的方式在 Telegram 短訊呈現。敬請期待!



熱門文章