Google人工智慧超強大!能抓取圖片中的文字直接見成文字檔!

人工智慧讓你看到圖片上喜歡的文字也能輕易擷取,從此不用再當打字工!!

現在以 Python這個程式語言為基礎的科技----人工智慧 ( AI ) 已經應用到很多專業的產業中，如醫療、咖啡、零售、人臉合成、養殖業、無人駕駛、救流浪貓等等。 Google 也展現了將人工智慧技術帶入日常生活的決心，並推出了新一代機器學習產品。本文要介紹的 Google Vision API 為 Google Cloud 提供的 AI 影像辨識工具，還被聯合利華 Unilever 採用、傢俱大廠 IKEA 也透過 Cloud Vision API 打造一款商品搜尋應用程式，消費者只要對產品拍照，立即就能得知詳細資訊。

目錄
動手玩玩 Google Vision API
標籤偵測（LABEL_DETECTION）
臉部偵測（FACE_DETECTION）
煽情露骨內容偵測（SAFE_SEARCH_DETECTION）
標誌偵測（LOGO_DETECTION）
地標偵測（LANDMARK_DETECTION）
OCR 文字辨識（DOCUMENT_TEXT_DETECTION）

動手玩玩 Google Vision API

Google Vision API 就像是 Google 的照片搜尋功能，主要能夠讓機器學習圖片中的物件 (如人臉、商標 Logo、圖片中的文字等等)，還可以偵測是否有暴力色羶腥的內容等等。簡單而言，Vision API 會自動辨認照片出現的物品並逐一做標籤。
只要點我打開 Google Cloud Vision API 的網頁，將圖片拖曳進下圖中的紅色區域，就能無痛、無料試玩大多數的 API 功能。

API 功能可簡單分成臉部辨識、標籤偵測、Web、文本辨識等等，下面將會就各個功能分別做說明。

標籤偵測

今天我們上傳一張圖片，API 就會回傳一組或多組回應。下圖為我們上傳一張貓咪圖片的範例，API 回傳了多組回應。

每一組回應包含三個值：mid、description 以及 score。上圖中右側顯示有 description 以及 score。

mid、description 以及 score。上圖中右側顯示有 description 以及 score。

description：這就是對該物件的文字敘述，例如：Cat(貓)、Mammal(哺乳類)等；而 score 就是 Cloud Vision API 對於這個敘述的信心分數。如此例中 Cat 為 100%，代表 API 認為「貓」是圖片中的主題，因此給了最高分。其他敘述還有 Mammal(哺乳類)99%、Felidae(貓科動物)97%、Tabby Cat(虎斑貓) 95% 等。利用這個文字敘述，可以輕易找出照片內容關鍵字，對於大量照片的分類、關鍵資訊的抽取都很有幫助。

而 mid 值則是 Machine-generated identifier(機器合成辨識)的縮寫，要點選「Show JSON」才會看的到。如果 API 偵測出的物件或特徵是知識卡裡面的資料，那麼mid 值就會秀出該物件在知識圖譜中的位置 (如下圖紅框內容所示)：

臉部偵測

可以偵測輸入圖片中的多個臉孔，並可針對圖片中的每個臉，個別指出臉部的喜怒哀樂、特徵、位置、是否有戴眼鏡、是否模糊等。

點選「Show JSON」則可以看到更細部的分析，包含左右眼的位置、眼睛上下緣的位置、人臉的仰角、傾角、可能的情緒狀態等極細微的特徵

煽情露骨內容偵測

此功能可偵測 5 種內容：adult(成人)、spoof(詐騙)、medical(藥物)、violence(暴力)、racy(性刺激)，幫助使用者過濾出可能有爭議而不適合顯示的圖片。

下圖為使用裸體假人圖測試 API 的結果。API 則依據假人的裸體判斷此圖「可能」含有 adult(成人)及 racy(性刺激)的內容。