當(dāng)前位置:首頁 >  科技 >  IT業(yè)界 >  正文

智能“鑒黃”新姿勢開啟,“鑒黃師們”不服可來戰(zhàn)

 2016-04-29 15:06  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

隨著移動互聯(lián)網(wǎng)讀圖時代的到來,大量游走在政策邊緣的色情、暴力、血腥等擦邊球的低俗內(nèi)容,每天都以數(shù)以億計的數(shù)量在各大網(wǎng)站、移動社交類App和UGC類App等平臺上涌現(xiàn),對用戶的互聯(lián)網(wǎng)的內(nèi)容消費(fèi)體驗(yàn)造成了干擾,其中色情的圖片內(nèi)容表現(xiàn)最甚。但由于過去對色情內(nèi)容的監(jiān)管手段主要依靠的還是人工的排查和過濾,所以高效準(zhǔn)確地鑒別和剔除這些淫穢色情信息,成為了一項(xiàng)十分艱巨的任務(wù)。

在這里,不得不提的一個神秘職業(yè)就是社交圈上廣為流傳的所謂的“鑒黃師”。據(jù)了解,依靠人工排查,鑒黃師們每日人均的審核極限大約在2w張圖片量級,除了圖片,還需要深入到各種隱蔽的網(wǎng)鏈背后去尋找并識別那些可能涉黃的信息。這份“看上去很美” 的工作,其實(shí)是非常枯燥和繁瑣的。此外,單純依靠人工排查的手段,面對互聯(lián)網(wǎng)上山呼海嘯般的涉黃信息,在效率上無疑是捉襟見肘的。隨著近些年人工智能技術(shù)的飛速發(fā)展,依賴海量數(shù)據(jù)與機(jī)器學(xué)習(xí)的智能鑒黃手段憑借著高效率高精度等優(yōu)勢,正在逐步取代人工審核,成為打擊色情信息的中堅力量。

據(jù)小花邊了解,目前國內(nèi)至少已有三家企業(yè)平臺推出了智能鑒黃服務(wù),分別為阿里綠網(wǎng)、圖普科技、騰訊優(yōu)圖(又名萬象優(yōu)圖)三家,那么究竟智能鑒黃技術(shù)哪家強(qiáng)?三家在鑒黃效果上又有何不同?帶著一點(diǎn)小嬌羞,同時又懷揣著一點(diǎn)小激動,小花邊低調(diào)地進(jìn)行了一番智能“鑒黃”體驗(yàn)!

由于圖普和騰訊優(yōu)圖很貼心地提供了線上測試網(wǎng)頁,支持上傳圖片實(shí)時返回鑒別結(jié)果,小花邊用某搜索引擎隨機(jī)找了幾張測試圖片,直觀體驗(yàn)了下鑒黃效果。結(jié)果如下:

PS:在以下鑒黃體驗(yàn)中,所有可能的涉黃信息都會經(jīng)過系統(tǒng)打分。“打個比方,如果系統(tǒng)打分說這個圖片99%涉黃,那就幾乎可以確定是,機(jī)器自己會處理。另外一些次一點(diǎn)分值的圖片,就需要人工鑒別。”騰訊優(yōu)圖返回結(jié)果

圖普科技返回結(jié)果

赤裸裸的圖片顯然容易判別,但是一些并不露點(diǎn),卻充滿性暗示的圖片,應(yīng)該怎么判斷?對圖片的智能識別能力將成為一個大考驗(yàn)。為此,小花邊特意選擇了三張羞羞的圖片(別問我是從哪里弄來的)、一張頗受爭議的wanimal攝影集的圖片(第四張)和四張正常的圖片(后四張)來進(jìn)行識別。

從打分結(jié)果上看,似乎騰訊優(yōu)圖的識別精度更高。圖片識別結(jié)果以標(biāo)簽(色情、性感、正常) + 概率的形式返回,與人工在涉黃可能性上的判斷上近乎一致,效果棒棒噠。

然而僅僅幾張的測試圖片,并不能說明哪家的算法效果,小花邊雖然不是專業(yè)人士,但也清楚大數(shù)據(jù)上的評價會更符合統(tǒng)計規(guī)律、更貼合實(shí)際應(yīng)用場景。為了更科學(xué)公正的比對這三家的技術(shù)實(shí)力,小花邊采取了如下的評測方案:

首先,從網(wǎng)上的某搜索引擎收集了25005張正常圖片(主要為一些風(fēng)景照和生活場景照片)。另再從近期熱點(diǎn)“艷照門”視頻中截取了92張色情圖作為色情的評測集。

樣本采集完備后,需要制定評測指標(biāo)。這里需要和讀者普及下兩個機(jī)器學(xué)習(xí)領(lǐng)域的重要指標(biāo):

正確接受率(true acceptance rate)和錯誤接受率(false acceptance rate)其中正確接受率表示的是N色情圖片中能識別出M張是色情圖片的比例,M/N數(shù)值越大,則說明算法對色情圖片的發(fā)現(xiàn)能力越好(比如給定的92張色情圖片,如能全部定義為色情,則正確接受率就為100%)。而錯誤接受率是指在X張正常圖片中,把Y張錯判為色情圖的比例,Y/X數(shù)值越大,則出錯的概率越高。一般來說,要公平比對不同算法能力,只需比較在同等的錯誤接受率條件下各自的正確接受率高低就可以了。

OK,萬事俱備,就不再賣關(guān)子了,直接公布測試結(jié)果吧!

先看圖普,通過將數(shù)據(jù)上傳官方的測試網(wǎng)頁得到了以下結(jié)果:25005張非色情圖片中有9張被判成了色情;92張色情圖片中有27張被判成了色情;因此,其錯誤接受率為 9/25005=0.036% ,正確接受率為27/92=29.348%。大概有2/3的色情圖被系統(tǒng)漏掉了。

然后是騰訊優(yōu)圖和阿里綠網(wǎng),注冊為開發(fā)者后,根據(jù)官方提供的sdk,批量地獲得了每張圖片的色情概率;為了和圖普的結(jié)果看齊,從小到大遍歷色情概率閾值,獲得了各自同樣錯誤接受率條件下的正確接受率,具體見下表:

結(jié)果已經(jīng)一目了然,在這一輪的比對測試中,騰訊優(yōu)圖完爆了另外兩家的效果,此處小花邊必須給騰訊的工程師點(diǎn)個贊。不過整體看起來,智能鑒黃技術(shù)水平的上升空間還比較大,與肉眼鑒別還有一定的差距,希望在不久的將來可以取代人工,徹底解放苦逼的“鑒黃師”一職。而當(dāng)這項(xiàng)技術(shù)有一天得到了大規(guī)模的應(yīng)用和普及,也不難腦補(bǔ)到數(shù)以萬計的宅男哭暈在廁所的畫面。

文:孫海亮微信公眾號:花邊科技文章見百度百家、界面、搜狐科技、艾瑞網(wǎng)、今日頭條、一點(diǎn)資訊等平臺約稿合作:請加微信:494380127

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)標(biāo)簽
聲音鑒黃師審核

相關(guān)文章

熱門排行

信息推薦