阿里研發AI技術0.15秒識別攔截外語臟話圖 覆蓋近30個語種

科技評論152閱讀模式

一年多前,阿里巴巴國際安全內容風控小二小荷(化名)在用戶交互場景發現了特殊的為規避平臺審查的“臟話”案例。

她的工作是借助技術和規則識別與清掃影響清朗環境的違規內容,剛開始,一些小廣告和口吐芬芳的臟話只是以文字形式呈現,后來隨著對抗升級,一些臟話嵌入到圖片中,甚至會使用多國語言進行偽裝。

為解決這個問題,阿里安全進行了多語種識別技術升級。近日,阿里安全算法團隊宣布,其研發用于網絡臟話的AI(OCR)技術,已能識別近30種語言,包括嵌入圖片中的英文、阿拉伯、俄語、法語、西語、日語、韓語、泰語、越南語、波斯語、孟加拉、尼泊爾、僧伽羅、朝鮮、蘇丹、德語、荷蘭語,以及馬來語、塔加洛語、土耳其語、意大利語、印尼語等國語言,甚至還包括三種中國少數民族語言。

在部分國際平臺中,“買家”在商品評論中以英語評論圖罵人,或者在交互場景中,買賣雙方以俄語臟話圖片對陣。國際平臺風控團隊和算法團隊復盤了很多案例,發現除了多語種臟話,多語種垃圾廣告以及不良信息也會暗藏在圖片中,試圖對抗風控。

全球有幾百種語言,重點的語言也有幾十種,一個工作人員最多認識三四種語言,在國際化場景下,靠人工識別風險圖片是不現實的,多語言識別的技術需求應運而生。

阿里研發AI技術0.15秒識別攔截外語臟話圖 覆蓋近30個語種-圖片1
圖(左)為俄語臟話示意圖 圖(右)為暗藏英語臟話的罵人圖

阿里安全高級算法工程師沄帆介紹,要識別多語種文字,就要了解各個語言文字特點,以及影響算法識別的問題。每種文字體系都有自己的字體,不同字體會導致同一字符出現字形上的差異,例如下左圖展示了漢字“字”在不同字體時的形態,以及手寫文字中的字符變化。下右圖則展示了俄語字母在手寫體和印刷體時的差異,紅框標出了部分字符會出現字形上的巨大變化。

阿里研發AI技術0.15秒識別攔截外語臟話圖 覆蓋近30個語種-圖片2

阿里研發AI技術0.15秒識別攔截外語臟話圖 覆蓋近30個語種
不同字體會導致同一字符出現字形上的差異(圖片來源:網絡)

“字符連接導致字形變化,不同文字體系,書寫及閱讀順序是不同的,這些都會影響AI識別和對語義的判斷。”沄帆說。例如,相同的單詞在不同的語種里也可能有不同的含義,“jammer”在荷蘭語里是“遺憾”的意思,但是在英語中是“信號屏蔽器”,可能涉及違規。

“以前沒有多語種識別功能的時候,我們如果把這個口語詞直接攔截,可能會造成‘誤殺’,臟話圖識別也是如此,要依據語種來判斷。”小荷說。

除此之外,還有臟話圖以置換正常字符順序,對抗風控的情況出現,如下圖所示,即使調換字符順序,人還是可以輕而易舉地判斷單詞的含義,但這種“攻擊”試圖以打亂字母順序的方式騙過機器識別。

阿里研發AI技術0.15秒識別攔截外語臟話圖 覆蓋近30個語種-圖片3
對抗的臟話圖

當然,要訓練如此多語種的識別模型,并解決多種對抗情況并不容易。技術團隊既要保證好的識別效果,又要盡可能提高計算效率及控制成本,解決好訓練樣本及模型方案的問題。

通過一年多努力研究,阿里安全算法團隊對這些點進行了逐個突破,通過改進多語言樣本生成方案與多語種識別模型框架,在多種圖片語言的識別上做到了高識別率,以及做到識別1張臟話圖只需0.15秒的速度,目前該技術也已應用在阿里多項國際業務中,總體識別準確率可達95%以上,并對各種藝術字體、復雜背景以及手寫圖進行了針對性識別優化。

其實,臟話攔截只是多語種OCR識別技術應用的場景之一,阿里安全國際風控小二文萱介紹,在交互場景里,違規信息中還有大部分屬于垃圾信息。

現在,基于阿里安全的算法能力,每天僅單個國際平臺就為全球用戶攔截幾萬次包含危險、辱罵、垃圾文本的多語言臟話圖片。阿里安全圖靈實驗室算法負責人薛暉表示:“期待以科技創新解決實際業務問題,幫助造就更好的網絡環境和網絡安全。”

 
  • 本文由 米粒 發表于 2021年9月27日13:47:32
  • 轉載請務必保留本文鏈接:http://www.bjmhhq.com/107205.html
科技

毒性堪比眼鏡蛇 亂摸水母會出人命!

抖音之前很流行的“水母手勢舞”你會嗎?張開手掌再捏住手指向后拉,收回手指,張開手指,你就可以得到一只簡略版的水母~ 然而不是所有的水母都這般可愛無害,比如今天的主角&mdash...

發表評論

匿名網友
:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:
確定

拖動滑塊以完成驗證