CENTER藉由域名爬蟲計畫研究域名及網站服務狀態

歐洲國家頂級域註冊管理機構委員會(Council of European National Top-Level Domain Registries,CENTR),發表了關於域名爬蟲的性能報告,CENTER執行「Signs-of-Life」域名爬蟲計畫已經兩年的時間,此項目會定期對數百萬個域執行掃描,以評估這些域名的註冊機構健康狀況,因此爬蟲的精準度極為重要,目前國碼頂級網域名稱(country code top-level domain,ccTLD)的準確率達到94%,頂級網域名稱(Generic top-level domain,gTLD)的準確率達到96%。

基準資料庫

為了評估爬蟲的性能,先將域名分類,沒有網站、HTTP錯誤、屬於註冊商的域名,以及其餘的域名。前者的準確性在早期的實驗中已進行了評估。後者,是使用機器學習方式,需要標記資料再重複訓練提高性能。截至本報告發布之日,3023個域名標記資料來自:

  1. 手動標記,用於開發爬蟲的初始版本,2083個.COM頂級域名。
  2. 透過Labtool應用程式所標記。940個頂級域,用於重新訓練。

機器學習性能

使用交叉驗證方法(分離訓練集和預測集),表現如下:在預測是否為停放頁面(parking page)的實驗中,3023個域名有275個錯誤,能正確分類的機率為90.9%。

整體表現

在錯誤準確度、註冊商準確度和機器學習準確度之間取加權平均值。結果如下表所述:

錯誤以及註冊商的準確性要比機器學習高得多,因為它們是使用精確的方式,而機器學習還需要不斷修正。截至10月26日,爬蟲的整體準確率應用在ccTLD為 94.3%,而gTLD上為96.4%。

相關連結:Patrick Myles(2022). Signs-of-life crawler performance report. CENTR. 檢自:https://www.centr.org/news/blog/crawler-performance-2022.html (Nov. 07, 2022)

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

Scroll to Top