這張發票透露了你的什麼訊息?

前陣子跟同事聊到一個話題,目前 App Store 上面有許多發票對獎 App。但是實體發票掃進去以後,如果中獎了還要想辦法找到那張發票,感覺非常不實用。那麼用了以後有什麼差別嗎?

本文未針對任何軟體及服務,僅提出個人之見解


發票記載的資訊

首先我們先來解碼最重要的 QR Code,由政府公告的規格文件中,可以看到以下幾點規則

左方二維條碼記載事項:

1. 發票字軌 (10位):記錄發票完整十碼號碼。
2. 發票開立日期 (7位):記錄發票三碼民國年、二碼月份、二碼日期。
3. 隨機碼 (4位):記錄發票上隨機碼四碼。
4. 銷售額 (8位):記錄發票上未稅之金額總計八碼,將金額轉換以十六進位方式記載。若營業人銷售系統無法順利將稅項分離計算,則以00000000記載。
5. 總計額 (8位):記錄發票上含稅總金額總計八碼,將金額轉換以十六進位方式記載。
6. 買方統一編號 (8位):記錄發票上買受人統一編號,若買受人為一般消費者則以 00000000記載。
7. 賣方統一編號 (8位):記錄發票上賣方統一編號。
8. 加密驗證資訊 (24位):將發票字軌十碼及隨機碼四碼以字串方式合併後使用 AES 加密並採用 Base64 編碼轉換。

以上欄位總計77碼。下述資訊為接續以上資訊繼續延伸記錄,且每個欄位前皆以間隔符號“:”(冒號)區隔各記載事項,若左方二維條碼不敷記載,則繼續記載於右方二維條碼。

9. 營業人自行使用區 (10位):提供營業人自行放置所需資訊,若不使用則以10個“*”符號呈現。
10.二維條碼記載完整品目筆數:記錄左右兩個二維條碼記載消費品目筆數,以十進位方式記載。
11.該張發票交易品目總筆數:記錄該張發票記載總消費品目筆數,以十進位方式記載。
12.中文編碼參數 (1位):定義後續資訊的編碼規格,若以:
(1) Big5編碼,則此值為0
(2) UTF-8編碼,則此值為1
(3) Base64編碼,則此值為2編碼
資訊包含從第一個品名前的間隔符號後的所有資訊(品名、數量、單價、補充說明),且不包含右方二維條碼前兩碼起始符號。未來視辦理狀況,將僅開放UTF-8編碼規格。

接續之品名、數量、單價為重覆循環呈現至所有品目記載完成,若品目筆數過多以致左右兩個二維條碼無法全部記載,則以記載最多可放置於左右兩個二維條碼內容之品目為原則。
13.品名:商品名稱,請避免使用間隔符號“:”(冒號)於品名。
14.數量:商品數量,在中文編碼前,以十進位方式記載。
15.單價:商品單價,在中文編碼前,以十進位方式記載。
16.補充說明:非必要使用資訊,營業人可自行選擇是否運用,於左右兩個二維條碼已記載所有品目資訊後,始可使用此空間。長度不限。

如果把封面圖中發票的左側條碼掃出來後,可以得到以下資訊

ZJ712922041090312361200000055000000590000000042308086N30oerT4xBGYFS89rT0n+Q==:**********:1:1:1:T 牛丼 值:1:89.

那麼一一解碼以後分別可以得到以下資訊

1. 發票字軌:ZJ71292204
2. 發票開立日期:1090312
3. 隨機碼:3612
4. 銷售額:0x00000055 (85)
5. 總計額:0x00000059 (89)
6. 買方統一編號:00000000
7. 賣方統一編號:42308086
(中略)
13.品名:T 牛丼 值
14.數量:1
15.單價:89

解碼完了然後呢

在大家都琅琅上口的「大數據 Big Data」領域中,有個行業是最大的受益者—(網路)廣告業

傳統廣告業區分目標受眾(消費者)的方法,可能是透過分析電視頻道加上節目類型、公車行經的路線、媒體本身的觀眾群等等方法,而隨著科技發展出現的新方法,就是透過所謂的精準行銷

你是不是覺得你想要什麼,就會出現那東西廣告?

或是覺得有些廣告莫名的很合胃口?

那麼我們試著就以上解碼出來的資訊,分析看看你可能被貼上什麼使用者標籤

買賣方統編

買方統編 00000000 可以得知你應該是個一般消費者,不過打過統編的發票沒有對獎的必要,因此這個可以做為已知的前提

賣方統編透過 這網站 或是其他政府公開資訊來源,可以查詢到這是位於「臺北市中正區黎明里南陽街12號」的 すき家。

購買品項

從解碼的資料中,可以知道我只買了一碗 89 元的牛丼 。

使用者標籤

結合了以上的資訊以後,得到這資訊的服務提供商就可以做出以下結論:

此人平日在台北市中正區的餐廳,購買了一個 89 元的牛肉產品

如果再透過記帳功能等方式,讓我填上此筆消費是發生在中午 12:25 的事,那個就可以做出以下幾點假設

1. 上班族(平日+中午消費)
2. 台北市中正區
3. 青壯年(餐廳種類)
4. 平價用餐消費*(一餐百元內)
5. 吃牛肉(品項牛丼)

那麼如果今天新開一家「台北市中正區平價鐵板牛排店」想要打廣告的話,我就很有可能是這家店潛在的顧客


除此之外呢

使用者輪廓

使用者當然不會只掃描一張發票,如果把所有手頭的發票全部掃進去以後,那麼系統方透過我常出現的地方、我的消費習慣等等,描繪出我最有可能的使用者輪廓。

最後假設我是住在台北市25-34 歲男性喜歡甜點開車或騎機車等等資訊。

資料共享

有種對使用者來說非常方便的功能,叫作「使用 Google 登入」、「使用 Facebook 登入」。當你按下去以後,系統方就可以堂而皇之的獲得「你同意它取得的資訊」。而且反過來 Google 與 Facebook 可能也可以獲得共享的資料。

如果 App 的話更可以往下層的系統獲得其他「你同意它取得的資訊」,可能是相機照片、通訊錄、定位資訊之類的。(有些例外可能會拿到你並未允許的資料)

為什麼我看到這個廣告

下次看到一些網路廣告不妨按按看「為什麼我會看到這則廣告」的按鈕,或是到以下網址查詢 Google 廣告設定Facebook 廣告偏好,看看他們眼中的到底對不對。


總結

在現在的環境中,個人隱私是一種諜對諜的戰鬥,這些透漏的資訊乍看之下好像沒什麼影響,但是 Netflix 的《個資風暴:劍橋分析事件》記錄了 2016 美國總統大選是怎麼透過精準行銷,來影響投票結果

你的想法真的是你所想的嗎?

還是別人放進你腦中的呢?

本文是根據本人經驗提出可能發生的事件,有什麼看法歡迎回應。