《電子技術應用》
您所在的位置:首頁 > 人工智能 > 業界動態 > 清華大學和芯翌科技聯合發布全球最大的公開人臉數據集

清華大學和芯翌科技聯合發布全球最大的公開人臉數據集

2021-03-16
來源:雷鋒網

  

  芯翌科技清華大學自動化系智能視覺實驗室合作,發布了業界規模最大的人臉數據集WebFace260M,相關學術論文已經被計算機視覺國際頂級會議CVPR 2021接收。該數據集完全基于全球互聯網公開人臉數據構建,包含數百萬ID和數億圖片,旨在進一步推動人臉識別相關技術的進步,促進智能化行業的發展,助力AI時代科技創新。

微信圖片_20210316144258.png

  網站地址:https://www.face-benchmark.org

  論文地址:https://arxiv.org/abs/2103.04098

  隨著人工智能技術的不斷發展,越來越多生物識別技術融入到我們的日常生活中。人臉識別作為應用最廣泛的生物識別技術,和指紋、虹膜等生物識別技術相比,以其非接觸、高精度、便捷的優勢,廣泛落地于各行各業,是目前最受歡迎的生物認證方式。

  1

  人臉數據集發布背景

  近年來,得益于深度學習技術的發展,經過業界多年來在數據集構建、神經網絡架構、損失函數設計等方面的詳盡研究,人臉識別技術在識別精度上已經取得了長足進步,并實現了大規模落地。但當前人臉識別仍然面臨公開數據規模小、標準混雜、測評無法對齊等問題。

  其中,目前公開的人臉識別訓練數據集中,規模最大的是MegaFace2和MS1M,分別僅擁有67.2萬ID和470萬圖片,以及10萬 ID和1000萬圖片,遠遠無法滿足實際人臉識別系統的數據需求??梢哉f,公開數據規模與實際落地系統所需數據規模之間的巨大差距,已經較大程度上阻礙了當前人臉識別相關技術的持續發展。

  另一方面,評測準則和測試集也是影響人臉識別技術進一步發展的重要制約因素。目前公開的人臉識別評測集,包括LFW、CFP、AgeDB、RFW、MegaFace、IJB系列等,在精度上基本已經比較飽和。同時這些測試集對于人臉識別不同場景下的分類測評不夠細致,沒有持續迭代、升級和維護,也沒有根據實際應用限制搭建評測準則。

  業界公認,NIST-FRVT是一個完全獨立的第三方測評系統,它的測試集非公開,測評指標分類詳盡,并且對提交頻次有嚴格限制和運行時間有嚴格要求,是目前唯一符合現實應用的測評系統。然而,也由于NIST-FRVT對提交頻率和提交條件的嚴格要求,一定程度上也限制了人臉識別技術的發展。

  2

  WebFace260M數據集情況

  基于當前行業的現狀,芯翌科技與清華大學的研究人員在FRVT參賽基礎上,完全基于全球互聯網公開人臉數據,聯合推出了當前全球規模最大的人臉數據集WebFace260M,人臉ID數目首次達到數百萬,圖片數目首次達到數億規模,將很大程度上推動以深度學習為基礎的人臉識別相關技術發展。

3.png

  WebFace260M數據集和公開數據集

  在人臉ID和數量上的比較

  同時在WebFace260M的基礎上,芯翌科技和清華大學的研究人員采用自訓練全自動迭代的清洗流程 (Cleaning Automatically by Self-Training, CAST),得到WebFace42M,是目前全球規模最大的可直接用于訓練的干凈人臉數據集。該數據集包含200萬ID和4200萬圖片,ID數目和圖片數目相比目前使用最廣泛、最受認可的公開數據集MS1MV2都提高了一個數量級以上。

  針對目前人臉識別的評測問題,研究人員發布了更貼近實際應用的”時間受限人臉識別評測準則“-FRUITS (Face Recognition Under Inference Time conStraint),和分布更廣泛、更具挑戰性、分類更細致的人臉測試集,這將推動人臉識別評測更靠近真實場景。同時,研究人員將持續維護、迭代和升級該測試集以及評測系統,助力行業技術發展。

  數據集共同作者、芯翌科技AI算法技術總監黃冠表示:

  基于發布的數據集、測試準則和測試集,我們進行了廣泛的實驗、對比和分析。分析結果表明,在新的高一個數量級的大規模數據、更貼近實際應用的評測準則、更具挑戰的測試集等多項內容的綜合評判下,大規模人臉識別問題在算法、系統、數據、評測等各個方面,存在相當多的問題需要學術界和工業界一起去探索和解決。

  3

  WebFace260M數據集指標

  基于WebFace260M清洗得到的WebFace42M數據,能夠在目前公開的、最具挑戰性的IJBC測試集上,達到新的SOTA (State-Of-The-Art),并把相對錯誤率降低了40%。

4.png

  基于WebFace42M,在IJBC測試集上取得了SOTA的性能

  同時,僅基于WebFace42M的數據,芯翌科技在2020年10月NIST-FRVT的榜單上,取得了1:1人臉識別評測綜合排名世界前三的成績。

5.png

  更進一步,以WebFace42M為基礎,在2021年3月最新一期的NIST-FRVT榜單上,芯翌科技在戴口罩人臉識別評測中以絕對優勢獲得世界第一,并在1:1人臉識別評測綜合排名世界前三。

6.png

  4

  打造開放、共享、安全的數據生態

  芯翌科技研發副總裁都大龍表示:

  在數字經濟和智能化時代,數據資源是最寶貴的生產資料。人們可能需要像對待傳統的生產資料,如土地資源、生產原料、工具設備等一樣,去規劃、生產、分享、交易、使用和保護新時代的生產資料——數據資源。

  然而目前,國內外普遍對數據資源這一重要的生產資料重視程度不夠,行業規范不足,分享壁壘嚴重,缺乏長期規劃。生產資料的匱乏,嚴重影響和制約了數字經濟和智能化時代生產力的釋放,限制了行業的發展。

  芯翌科技和清華大學的研究人員深刻認識到數據資源對行業發展的重要性,合作推出了目前全球最大的公開人臉數據集——WebFace260M以及相應的Benchmark。通過這個數據集,希望能夠助力AI時代科技創新,持續推動智能化產業落地。同時,也希望和整個學術界、產業界一起,打造智能化時代開放、共享、安全的數據生態。

  END

  推薦閱讀早報 | 特斯拉無法剎車撞上護欄,售后實測也撞了!最新甩鍋:地面濕滑;華為以及孟晚舟方有4個鐵證 ;何小鵬回應怒懟馬斯克


本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:aet@chinaaet.com。
主站蜘蛛池模板: 琪琪女色窝窝777777| 鸥美一级黄色片| 夫妇交换性三中文字幕| 久久99久久99精品免观看不卡| 欧美一级www| 亚洲欧美精品成人久久91| 男女交性高清全过程无遮挡| 向日葵视频app免费下载| 金8国欧美系列在线| 国产无遮挡又黄又爽又色| 131美女爱做视频| 国产高清在线观看麻豆| tubesex69| 孩交精品xxxx视频视频| 中文字幕一区二区三区四区| 日产精品99久久久久久| 久久亚洲精品无码AV红樱桃 | 国产激情自拍视频| 2021麻豆剧果冻传媒入口永久| 国语对白做受XXXXX在线中国| caoporn97在线视频| 小箩莉奶水四溅小说| 两个人看的www高清免费观看| 无码中文av有码中文a| 久久久成人影院| 日韩v亚洲v欧美v精品综合| 五月天中文在线| 李丽珍蜜桃成熟时电影3在线观看| 亚洲人成在线免费观看| 欧美国产亚洲日韩在线二区| 亚洲国产精品一区二区九九| 欧美日韩国产电影| 亚洲成人福利在线| 毛片基地看看成人免费| 亚洲白色白色永久观看| 欧美黑人粗暴多交高潮水最多| 亚洲精品无码久久| 欧美精品寂寞影院请用uc| 亚洲欧美中文日韩在线v日本| 欧美精品一区二区三区在线 | 国产草草影院ccyycom|