未來五年將進入數據科學家時代
美國學者格斯特林表示,5年內所有軟件應用都將內置智能,使數據科學家成為“認知”技術經濟的關鍵工作者。
對于一個理應奇缺人才的領域,數據科學似乎在快速造就大批新專家。不久前,1600人出席了華盛頓大學(University of Washington)機器學習教授卡洛斯·格斯特林(Carlos Guestrin)執掌的公司Turi在舊金山主辦的一次數據科學峰會,表明數據科學引起的興趣是多么的濃厚。
格斯特林提出,所有軟件應用在5年內都將需要內置的智能,使數據科學家——經過培訓,能夠對海量數據進行分析的人員——成為這一新興“認知”技術經濟中的關鍵工作者。
無論這種關于數據科學即將無處不在的預測正確與否,目前已有一些核心的關鍵應用依賴機器學習,最主要的是推薦程序、欺詐探測系統、預報工具和旨在預測顧客行為的應用。
把直到不久以前還專屬于研究科學家的技術納入生產級的業務應用程序,可能指向企業競爭力的一種深刻變化。在Turi活動上炫耀數據科學和機器學習技能的公司——包括優步(Uber)、Pinterest和Quora——都創立于數字時代。
舉辦在線數據科學競賽的Kaggle的首席執行官安東尼·戈德布盧姆(Anthony Goldbloom)表示,一些在模擬世界里成長壯大的公司,比如沃爾瑪(Walmart),也在大舉投資于數據科學領域。但他預測稱,它們不太可能趕上亞馬遜(Amazon)之類公司,這類公司擁有先發優勢,并且動作很快。隨著相關技術在不同行業推廣,隨著智能系統發揮越來越關鍵的作用,這些趨勢可能導致行業領導地位發生天翻地覆的變化。
拖累許多傳統公司的一個因素,將是開展真正的機器學習運作的高成本。
一名知情人士表示,Netflix估計在一個單一應用——其電影推薦系統——上每年支出1.5億美元,而一旦把該公司對相關技術的所有應用都考慮在內,總賬單很可能是這一金額的四倍。
許多創立時具有數字基因的公司——尤其是那些擁有海量實時客戶交互數據可以挖掘的互聯網公司——對數據科學的投入是不遺余力的。例如,Pinterest的首席科學家尤雷·萊斯科韋茨(Jure Leskovec)表示,該公司維護著逾100種可以應用到不同類型問題中去的機器學習模型,不斷處理熱切希望利用這些資源解決業務問題的經理們的請求。
人才是許多非科技公司的另一個問題。盡管數據科學家正大量涌現出來,但有些技能十分短缺,尤其是在深度學習方面——這是最高形式的機器學習。戈德布盧姆說,在使用Kaggle的自由職業計算機科學專家中,僅有大約1000人擁有深度學習技能,而可以運用其他機器學習方法的有10萬人。
他接著說,大公司經常不愿調整自己的工資等級去聘用該領域的頂級人才,即便某個高薪專家開發的算法可能對公司業務起到超出比例的效果。
然而,適應即將到來的“智能”應用時代的大障礙,可能是文化上的。有些公司,比如通用電氣(GE),一直在硅谷打造自己的研發團隊,以吸引和開發他們將需要的數字技能。但是,他們將不得不把新的數據科學家和機器學習專家安排到運營部門中去,讓他們更接近部門經理,才能收獲全部好處。
科學與業務實踐之間的這種結合是至關重要的。不言而喻的是,從現在開始,所有的經理都將需要在數據引導下做出決策。但那需要思維模式的徹底改變,說來容易做來難。
戈德布盧姆說,這一挑戰已變得更為艱巨,因為經理們被要求圍繞新的“智能應用”重新設計自己的工作流程,在一定程度上使他們自己失去存在的必要性。
盡管存在種種障礙,有些公司或許能處理好這一艱難的轉型。但是,那些在創立之時就把數據科學和機器學習作為業務核心的公司,很可能構成強大競爭。
網站題目:未來五年將進入數據科學家時代
網站地址:http://www.xueling.net.cn/article/sojhos.html