我們是否需要視頻搜索?
或許文字和圖片就已經足夠了。
創新互聯公司-專業網站定制、快速模板網站建設、高性價比延慶網站開發、企業建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式延慶網站制作公司更省心,省錢,快速模板網站建設找我們,業務覆蓋延慶地區。費用合理售后完善,十載實體公司更值得信賴。
編者按:本文來自微信公眾號“品玩”(ID:pinwancool),作者:油醋,36氪經授權發布。
這個片段的出處是哪兒?這種問題就像是手撓不到后背的癢。
大部分時候,遇到這樣的情況,你可以做的就是把視頻里的金句摘出來,用文字去網上問。不然,就截圖去搜索引擎或者視頻平臺上搜。兩者的前提都是把你看到的視頻片段再降些維度,抽象成更簡單的東西。但如果碰上冷門的視頻或者視頻中的語言你無法聽懂,難題就來了。
所以,能不能直接用視頻搜視頻呢?
文字搜萬物
目前來看,人們討論的“視頻搜索”更多依托于傳統的輸入文字完成搜索的模式。
抖音方面此前表示,抖音搜索在技術上會重點關注多模態信號補充,基于此,有兩項技術在輔佐著這種傳統意義上的視頻搜索的精確性——OCR(光學文字識別)和ASR(語音識別)。
OCR全稱Optical Character Recognition,直白點說就是能把圖像中的(換到視頻就是其中某幾楨)出現的文字識別出來。路況監控讀取車牌,拍照上傳銀行卡面讀取卡號都是這項技術的日常應用。目前常用的OCR庫有Google的開源項目tesseract以及微軟提供ApI的Azure。在國內機器學習技術頂尖的百度也在去年開源了自己的OCR庫paddleOCR。
ASR(Automatic Speech Recognition)則與OCR對應,可以用于將視頻內容中的語音內容提取出來,成為被檢索的標記。SIRI與微信語音轉文字都是這項技術的應用。
但這兩項技術實際上只能完成最淺的視頻搜索情景,它們的基礎是“我知道我要看的東西叫什么”,并且最好視頻本身已經預制了文本標簽。
如果只是依靠OCR與ASR技術,同樣的一只老虎在理論上需要脖子上掛一塊牌子寫著“老虎”才能被搜索出來。并且很可能脖子上寫的是“我不是老虎”的那些,也會出現在搜索結果里。
但比如我想要搜索電影《機器人總動員》里的“瓦力”,又不知道電影和機器人的名字,我可能就只能搜“長得一個垃圾桶的機器人”,然后期待茫茫人海中有人給“瓦力”標記“垃圾桶”,之后托付給偉大的機器學習。
而它仍然很有可能把天行者盧克身邊的R2-D2推給我。
其實谷歌在2017年就已經對視頻搜索技術做了推進。
當時的Google Cloud Next云端大會上,谷歌公開了一個基于深度機器學習的視頻技術應用Cloud Video Intelligence ApI。當時的谷歌副總裁李飛飛現場演示了谷歌在深度機器學習的基礎上,已經可以做到在視頻中精確定位某個客體出現的時間。
這項技術在視頻搜索上的意義是可以將純粹的圖像信息進行歸類,讓它們可以被檢索。比如搜索“老虎”,在視頻資料庫中所有與老虎相關的視頻都會被標記并且按相關程度列出。這項技術解決了搜索過程中只能將一切轉化為文字再進行機器學習或者匹配的一般邏輯,李飛飛也視其為“黑暗中為數字世界點燃一盞燭光”。
同樣是2017年,阿里文娛和達摩院在視頻搜索上也進行了關于語言、語音等多模態視頻搜索的實踐。其中一個技術方案是利用人臉識別的技術,識別出視頻中出現的人物如黃子韜、易烊千璽,“再通過 OCR/ASR 技術,識別各視頻中的對話內容并轉化成文本,然后基于文本去做結構化理解”。
2019年事情又往前推進了一步。谷歌開始嘗試在涉及Youtube的英文視頻搜索中直接顯示視頻中段的相關內容。Engadget的報道稱,這意味著如果你要搜索某支曲子,搜索結果會顯示某場包含這首曲子的音樂會,并且進度條直接拉到這首曲子的位置。
但這項技術目前仍然依賴上傳者在視頻中手動添加時間標記。并且這樣的技術本質上仍然是將其他模態形式的信息轉譯成文本,并沒有動搖傳統搜索模式以文字輸入為基礎的基本形態。
丟掉文字,視頻搜視頻?
回到開頭的問題,我如果手頭上只有一個視頻片段,要怎么搜索呢?依賴文字輸入的搜索功能并不能完成這個任務。這時候只能以視頻搜索視頻。
現實的情況是,把一整個視頻作為搜索依據還有點難,不過可以將視頻定格在某一楨,而這其實就是現在已經隨處可見的圖片搜索。
圖片搜索最早要追溯到28年前。
1992年,日本學者T.Kato在一篇論文里首次提出了基于內容的圖像檢索(CbIR)概念。CbIR技術通俗來說是一種匹配技術。在輸入一個樣本圖片文件時,將圖像中的色彩(顏色直方圖、顏色一致性矢量等參數)、形狀(面積、曲率等)和紋理等信息進行特征提取,進行編碼,然后將圖像編碼放到信息庫中去尋找相似圖像。
基于此,IbM Aimaden研究中心開發了第一個商用的CbIR系統QbIC。谷歌也在2001年推出了圖片搜索服務。而在精確度方面的發展,則托付給了深度學習技術。
抖音在2019年曾推出過抖音識圖的功能,用戶可以通過這個功能搜索到一則短視頻中出現人物的所有抖音視頻。但抖音推出識圖功能的主要動力還是其在電商方面的潛力。利用這項技術,抖音博主自己帶貨的衣服可以直接被識別出來鏈接到商品,節約了中間更多的跳轉步驟。
而在2020年,阿里巴巴淘系技術部與北京大學前沿計算研究中心CVDA實驗室、英國愛丁堡大學等合作,正式開源業界首個大規模的多模態直播服飾檢索數據集(Watch and buy)。借助pixelAI 商品識別算法,商品的圖片識別已經可以被應用在直播環境中。
但圖片搜索所面臨的風險也高于文字,美國媒體DIGITAL TREND在抖音識圖上線后不久就表示出對于私人視頻信息安全的質疑,而這個實驗性的功能目前也已經從抖音的側欄里下線。
不過,這些技術已經基本能滿足大多數的視頻搜索需求??梢钥闯觯壳暗乃阉鬟壿嫸际菑牡途S到高維(文字搜圖片,圖片搜視頻),在各種媒介形式中,視頻是復雜程度最高的。另一方面,視頻形式對于用戶來說完成度太高,把所有東西都揉在一起。如果能通過搜索功能把與視頻相關的文字和圖片搜索結果拆解出來,這可能才是視頻媒介越來越成為主流之后,我們對視頻搜索的期待。
但鑒于在視頻在保存和格式統一上的高門檻,其作為搜索輸入端的價值不高。并且由于版權限制,視頻素材未來會越來越被各個平臺圈地保護,這又導致視頻搜索先天性地只能變成某種形式的站內搜索,而失去了作為一個開放搜索平臺的內容寬度。
所以無論怎么看,用視頻搜索內容可能仍然是個遙遠的事情
本文名稱:我們是否需要視頻搜索?
文章出自:http://www.xueling.net.cn/article/sccisi.html