CAC反垃圾分類系統(tǒng)是Coremail的后端反垃圾引擎。垃圾郵件經(jīng)過前端反垃圾GT網(wǎng)關(guān)引擎評分判斷之后,大部分的垃圾郵件都被過濾到垃圾箱,正常郵件投遞到收件箱,少部分郵件(在一定分值范圍內(nèi))進入了可疑郵件隊列。進入隊列的郵件再經(jīng)過CAC郵件分類系統(tǒng)過濾,將郵件分類成:正常郵件、訂閱郵件、廣告郵件、垃圾郵件四大類型。其中正常郵件和訂閱郵件將會投遞到用戶的收件箱,而廣告郵件和垃圾郵件將會投遞到用戶的垃圾箱。
反垃圾郵件服務運營中心反垃圾分類系統(tǒng),對可疑郵件進行智能分析,并進行人工判定。 在反垃圾GT網(wǎng)關(guān)的基礎上,進一步降低了郵件的漏判率。
n基本原理如下圖所示:
n判定過程:
n郵件進入CAC分類系統(tǒng)后,先將相似的郵件聚類到一起,然后進入分類引擎對郵件進行分類,將郵件標記為正常郵件,訂閱郵件,廣告郵件,垃圾郵件四者之一,并將郵件標記和分類結(jié)果置信度返回給客戶端,由客戶端做后續(xù)的處理,對于置信度小于指定區(qū)間或重復次數(shù)過多的郵件,將會要求人工確認此郵件的分類。
n學習過程:
n反垃圾郵件服務運營中心郵件分類系統(tǒng)后臺會定時啟動學習模塊,學習過去n天的分類系統(tǒng)處理結(jié)果,來不斷的進化和處理新垃圾郵件類型。
反垃圾郵件服務運營中心(CAC)應用幾十種世界先進的反垃圾技術(shù),根據(jù)反垃圾技術(shù)潮流的發(fā)展,不斷對技術(shù)進行創(chuàng)新,為客戶提供獨特而實用的反垃圾運營服務。
n國內(nèi)最好的中文垃圾郵件過濾算法
n傳統(tǒng)的文件比較方法,提取最重要的特征分詞,會導致某些次重要的特征分詞被丟棄,會影響分類器的準確性。CAC郵件分類系統(tǒng)對于中文分詞不依賴中文字典,而是通過排列組合窮舉所有可能的分詞形式,然后通過統(tǒng)計來確認哪些分詞比較重要,并針對html文檔和html tag進行特殊處理。
n郵件評分技術(shù)
n反垃圾郵件服務運營中心(CAC)使用多條評判垃圾郵件的規(guī)則,對郵件的發(fā)信IP,發(fā)信人地址,信件內(nèi)容等部分進行評分。將總分與系統(tǒng)及用戶設置的閾值作比較,決定郵件是否評為垃圾郵件。使用郵件評分技術(shù)使得反垃圾郵件系統(tǒng)可以更靈活地組合各種過濾規(guī)則,系統(tǒng)管理員可以設定劃分垃圾郵件的系統(tǒng)過濾閾值參數(shù),從而動態(tài)調(diào)整系統(tǒng)對垃圾郵件的過濾強度。
n二次學習機制
n反垃圾郵件服務運營中心(CAC)聚類服務器使用半人工的分類器對未知郵件樣本進行分類,SVM生成第一次分類結(jié)果之后,將所有學習樣本都投入分類器,抽取部分點讓人工再做一次糾偏,最終將糾偏之后的信息傳遞給分類器進行訓練,再學習一次,由此形成一個正向循環(huán),讓學習結(jié)果準確性提高。
[1]反垃圾郵件服務運營中心(CAC)為超過50個VIP客戶、140個IP提供RBL監(jiān)控和移除處理服務。CAC監(jiān)控的RBL組織包括9個國際著名反垃圾組織,第一時間監(jiān)控用戶IP是否被列入RBL,并幫助客戶提交相關(guān)信息,申請移除。
n截至2012年,CAC反垃圾中心已為70多個客戶移除RBL共208個。
針對企業(yè)的郵件類型,CAC可提供個性化的反垃圾算分服務。經(jīng)過算分后,能獲取到某一企業(yè)內(nèi)郵件的特征,從而調(diào)整判斷規(guī)則的分值,有效地解決郵件誤判和漏判的問題。