深度學習的商戰必修課：人工智慧實用案例解析，看35家走在時代尖端的日本企業如何翻轉思考活用AI【試閱】

好書試閱

深度學習的商戰必修課：人工智慧實用案例解析，看35家走在時代尖端的日本企業如何翻轉思考活用AI

9折特價378元

加入購物車

case10 双日鮪魚養殖場鷹島 Sojitz Tuna Farm Takashima
運用人工智慧掌握鮪魚養殖數量，每年減少超過兩百五十小時的作業

鮪魚養殖業的重點之一是正確掌握飼養網籠裡的鮪魚數量，這樣才能計算最理想的餌食需求量。魚餌的開銷占了一半以上的成本。双日與電通國際情報服務（ISID）合作，利用深度學習來掌握鮪魚的數量。據說一開始相關人士認為是「不可能」的挑戰，但經過實測後效果頗佳，已經朝正式研發邁出一大步。

綜合商社双日為了穩定供應日漸減少的鮪魚，二○○八年於長崎縣松浦市鷹島以全額出資的方式成立了子公司双日鮪魚養殖場鷹島，展開鮪魚養殖事業。二○一六年十二月，在和歌山縣串本町取得漁場，該公司成立十年來事業持續擴大。

◎掌握鮪魚數量至關重要

鮪魚養殖業花三年時間才能出貨，超過一半的成本花在餌食上。因此，如何估算出最理想的餌食量成了首要之務。要推估理想的餌食量，必須正確掌握飼養網籠裡究竟有多少鮪魚。餌食給得太多，造成資源浪費；反之若給太少，又導致鮪魚品質下滑。

双日食料暨農業業務本部食料暨水產部水產事業課專任課長石田伸介說明，「水產業有很多地方還是個人經驗的傳授，業界發展科技資訊化的腳步較慢。假設餌食量差一成，幾年下來數量很可觀。不過，目前仍然普遍倚賴漁夫的經驗法則來訂定餌食量。如果這個部分能夠數據化，沒經驗的年輕人也能輕鬆進入這一行。對於勞動力逐漸高齡化的水產業來說，推動資訊科技化具備各種不同層面的意義。」

然而，計算鮪魚的數量可沒那麼容易。飼養網籠的直徑有四十公尺，最深的地方達二十公尺，相當巨大。鷹島大約有三十處飼養網籠，以不同飼養年分來管理。每一處飼養網籠大約有一千五百尾幼魚，但隨著時間過去，網籠內的情況大幅改變。有些鮪魚死掉，有些其他種類的魚從漁網縫隙鑽進來。過去只能靠漁夫從鮪魚吃餌的情況來判斷大致的數量。

◎逐格播放影片來計算鮪魚數量

將幼魚放進飼養網籠後，得等到把鮪魚移到另一處飼養網籠時才有機會計算數量。拉開網籠之間的網子，然後由潛水員深入海中拍攝鮪魚通過時的影片。把這幾十分鐘長的影片逐格播放，由工作人員一尾一尾計算，長的時候大概花上五小時觀看。五名工作人員各自進行之後，對照結果推算出一個正確的數量。這是過去採用的方法。石田說明，「這種做法非常耗費時間和人力成本。但鮪魚數量又是重要的關鍵，不可能不計算。這項作業該怎麼提升效率，始終是一大課題。」

近三十處飼養網籠，到可出貨的三年多期間，鮪魚需要在網籠之間移動一、兩次，亦即一年有十次至二十次計數作業。五名工作人員需各花費五小時在這項作業上，總計每年耗掉兩百五十小時至五百小時。如果能夠自動化計數，將大幅減少作業時間。此外，能讓年輕人的就業環境變得更好，進一步期待改善雇用情況。

由於這樣的需求，讓相關人員想到是否能運用深度學習來估算鮪魚的數量。於是二○一七年初，該公司與電通國際情報服務展開合作。為了因應二○二○年的奧運和殘障奧運，電通國際情報服務其實原已進行運動中人類動態可視化的研究，所以想到是否能將這項技術運用於計算鮪魚數量。

◎「直覺認為那是不可能辦到的」

電通國際情報服務通訊IT事業部企畫總監西川敦坦言，「其實一開始看到影片中鮪魚移動的速度這麼快，直覺認為那是不可能辦到的。」

實際上，研發過程極度困難。首先，魚影的判斷非常不容易。拿到的影片受到天候、潮流等各項條件影響，而且有很多浮游生物和光線等容易誤判為鮪魚的物體資訊。此外，這些影片是由潛水人員在水中拍攝，鮪魚出沒地點會移動，或者出現手震。再者，現場除了鮪魚還有其他魚類，也要判別出來，訓練資料的正確性必須非常高。

將拿到的影片分成學習資料和測試資料，在原先運動領域研發的演算法中，調整加入為鮪魚專用之後，進行一次又一次試誤學習。

個體辨識很困難，必須針對一格一格靜止畫面進行影像分析，再加入動態預測的功能，例如從鮪魚的移動速度來判斷，這一格畫面跟那一格畫面裡的鮪魚不是同一隻。經過多次反覆作業，二○一七年底終於有了成果。只要有條件完備的影片，估算出的數量跟人工計算的結果差不多。

西川說明，「例如光線的差異、成長條件的不同等，僅用一個模型無法因應所有條件，還有改善的空間，需要持續研究。」

◎研發鮪魚專用計數應用程式

兩家公司逐漸掌握竅門後，電通國際情報服務研發出鮪魚專用的計數應用程式，二○一八年六月上線運作。這個程式的目的在於提升第一線作業效率的同時，改善訓練資料的品質。在影片上畫出一條終點線，鮪魚通過這條線時敲打鍵盤來計算數量。用這個狀況下判斷為鮪魚的資料當作訓練資料，逐漸累積數量。此外，已計算過的鮪魚出現數量以直方圖顯示在影片下方，之後計算的工作人員可以預測鮪魚出現的情景。

這項做法讓作業時間大幅縮短，也能和其他工作人員的估測數據做比較，進一步改善第一線的作業狀況。此外，有別於過去以整段影片計算尾數的數據，現在是以一格畫面有多少尾來計算，訓練資料的品質更為提升。

今後的課題是影片標準化。為了達成目標，仍持續不斷進行試誤學習，使用各種不同的攝影方法，以及影像處理的技術。進行深度學習之前，目前還在摸索藉由資料預處理，可以將準確率提高到什麼程度。

◎如何在網路環境不佳的鷹島實施？

目前還在評估提供實際服務的方式。由於鷹島當地的網路環境並不理想，營運上該怎麼交換資料，必須進一步評估伺服器建置在雲端或在現場設置功能更強大的設備。

計數應用程式的下一步，是在深度學習辨識的魚影上加框，讓計數變得更容易，最終目標希望能區分鮪魚與其他魚種，達到完全自動化。

西川談到今後的展望，「就像汽車的自動駕駛一樣，不可能一蹴可幾。我們將配合運動界的技術研發，目標是在二○二○年實現這項技術。」

石田表示，「正因為有我們這樣的規模，才能收集到夠多的資料。想到或許能幫助其他養殖業者解決課題，我們希望盡量做出貢獻。藉由收集更多資料，讓影像更加鮮明，就能提升準確率，最後達到超越人工作業的效果。」他在言談中充滿期待。

case20 Mercari
使用智慧型手機拍照，就能自動輸入上架商品類別和名稱

日本國內每個月超過一千萬人使用跳蚤市場應用程式「Mercari」，一年（二○一八年度）交易額高達三千四百六十八億日圓。深度學習在提升使用者體驗和實現安心交易上，發揮了很大功效。

Mercari的深度學習影像辨識運用有兩大方向。一是藉由提高服務的便利性，實現更好的使用者體驗；另外則是因應現金或演唱會票券等違反法律或規定的上架商品。

二○一八年七月，累積的上架商品數量高達十億，Mercari保存包括這些照片、商品簡介文字等豐富的資料，對於運用深度學習的環境來說，相對得天獨厚。然而，通往目標的道路並非一帆風順。之所以能克服障礙，憑藉的正是Mercari的「Go Bold」（放膽去做）精神。 ◎藉由影像辨識自動登錄分類

二○一七年十月，Mercari推出影像辨識功能。用戶只要將想上架的商品用應用程式拍照，就會自動輸入商品名稱和類別。模型以深度學習過去的上架商品資料和影像來推論，顯示出商品名稱等選項。然而，相較於用戶上架商品數量，實際上自動輸入的情況不到一半。

原因是即使使用深度學習，仍然很難區分。用戶上架的商品影像受到拍攝的相機、光源、拍攝方向、背景等環境影響而異。例如，同樣是服裝類，放在地板上拍攝與穿在人體上拍攝，很難判斷是同一類商品。

深度學習的影像辨識經常宣稱可以「超越人類」。事實上，在全球性的視覺辨識競賽ILSVRC中，在有限的資料集裡的確能達到近百分之百的準確率。然而，如果像Mercari這樣實際運用在服務上，準確率會明顯大幅下滑。

除了上述的影像多樣性問題，太陽眼鏡和後背包等男女共用的品項，究竟是女性服飾配件還是男性服飾配件，基本上無法區別。

因為這些狀況，關於影像辨識服務功能上線這件事，工程師最初顯得裹足不前。

◎準確率低仍能實現「感動上架」

「研發了功能之後，有近半年的時間都在煩惱，（在低準確率的情況下）辨識類別和品牌究竟有多大意義。最後由服務部門高層做決策，認為只要能激勵人去行動、讓用戶感動，即使準確率低，也應該推出這項功能。」（軟體工程師山口拓真）

縱使準確率低，仍執意搭載以影像辨識自動輸入商品名稱和類別的功能，還有一個明確的原因。因為判定的準確率低而不自動輸入，藉此提高這項功能對用戶來說的準確率。換言之，實際加入這項功能，即使誤判也不會令使用者失望；另一方面，若能正確判定且自動輸入商品資訊，還能提供驚喜的新體驗。

Mercari倡導的公司精神是「Go Bold」，技術第一線同樣秉持這種作風。「不僅是機器學習，包括其他技術新事物也相對積極採納。當然，要先明確了解影響的範圍和風險。」（山口）公司內部將這種藉由影像辨識來自動輸入的功能稱為「感動上架」，目標是讓用戶認為僅是在Mercari上架商品這件事，就是很愉快的體驗。

根據這項方針，進一步擴充影像辨識技術，支援用戶上架商品的功能。例如，現在只要拍攝書籍封面，就能自動輸入書名。過去可以做到拍攝條碼後自動輸入，現在又成功減少一個步驟。

此外，影像辨識使用的是Google研發的深度學習影像辨識模型「Inception-v3」，新增了Mercari的上架商品影像學習後研發而成。學習所使用的影像有時多達一千萬筆左右。使用的影像資料筆數因研發的各個模型而異，決策以推論準確率所需的學習時間、所需的圖形處理器伺服器費用等的均衡而定。每次學習要花上幾天時間，如果準確率只有些微提升，控制資料筆數，以便一天之內完成學習。在意識到實際服務使用的情況下，決定資料大小。

◎利用多模式辨識偵測違規上架

Mercari另一項運用影像辨識技術的部分，是因應違規上架。Mercari用戶可以檢舉通報違規上架的商品，但系統也會自動偵測出違規商品，在其他使用者看到之前進行相關處理。一天上架的商品數量高達數十萬至數百萬件，不可能全部靠人工目視來確認。因此，少不了藉由電腦等機器過濾。如果能篩選幾千件乃至幾萬件，之後就能由人工作業來判定。

從營運者的角度來說，希望只要可能違規的商品都能偵測出來，因為有這樣的動機，在技術層面上不斷挑戰。其中一個例子是多模式機器學習。偵測出違規上架的商品時，不僅影像，包括產品名稱、簡介文字、價格等各種類型的資料都會歸納進行深度學習，以便提升辨識準確率。

多模式辨識是目前廣受矚目的技術領域。「『多模式』這個詞經常聽到，實際做起來卻頻頻碰壁。而且幾乎找不到這方面的論文，也不清楚該怎麼改善。因此，根本已經不是單純的服務研發，而是用接近基礎研究的水準在鑽研。」（山口）

由於違規上架商品對社會造成重大影響，Mercari非常重視，並指出判定的模型「運作的資料量非常大」（山口）。此外，實際運作的模型一旦增加，從工程的角度來看，會出現管理問題。為了提升偵測違規的準確率，必須定期更新訓練資料讓系統再次學習，而且演算法本身必須不斷改善置換。而當規則改變，出現新型態的違規上架，必須配合安裝新的模型。

◎更新模型並建立公開機制不可或缺

「有時一名工程師必須管理超過十個模型。但這麼一來得花工夫維護管理，無法處理其他新事物。」（AI小組總工程師木村俊也）

如果沒有事先想好模型的生命週期，每次更新或新增模型時出現問題，未來很可能一直留下舊模型，成為產品研發的瓶頸。因此，Mercari針對深度學習、影像辨識，研發和使用的相關基礎建置持續進步。包括為了建立更安全的模型更新和上線機制，而且避免模型之間起衝突，聘用具備機器學習知識的基礎設備工程師。藉此降低將機器學習納入服務的門檻，並提升工程師的企圖心。最終目標希望能形成正向循環，讓產品提升更具吸引力。

回商品頁