買以太坊 買以太坊
Ctrl+D 買以太坊
ads
首頁 > 火幣APP > Info

REG:什么是數據異常檢測?_PRE幣REG價格

Author:

Time:1900/1/1 0:00:00

上面的圖像是由一個人工智能繪制的,當時我們讓它為“異常檢測”這個詞創作藝術品。

據《華盛頓郵報》報道,2009年至2010年間,英國有1.7萬名男性報告懷孕。這些英國男性尋求與懷孕相關的護理,如產科檢查和產婦護理服務。然而,這并不是因為現代醫學的突破!有人在國家的醫療系統中輸入了錯誤的醫療代碼。簡單地說,數據記錄得很糟糕,而且沒有質量檢查來發現錯誤!

這很難歸咎于英國的醫療服務。質量,顧名思義,是主觀的。為各種可能的錯誤數據創建質量檢查是一項巨大的壯舉。即使是數據最成熟的公司也很難預料到每一個錯誤。然而,如果有一種方法可以使用AI/ML,這些解決方案可以獨立地從我們的數據集中學習。他們可以發現這樣的錯誤,而不需要我們明確地說,“如果入境的是男性,那么就不要提供孕產護理。”

事實上,有。

CPDA數據分析師都知道這叫做異常檢測。

什么是數據質量檢查?

在我們進入異常檢測的奇跡之前,我們必須了解什么是數據質量檢查(以及它是如何工作的)。

BM:沒有社區的技術什么都不是,該讓EOS社區站出來了:EOS創始人Daniel Larimer(BM)在推特上回復評論時表示,沒有社區的技術什么都不是。什么樣的社區會等待“其他人”讓他們的代幣變得有價值?是時候讓EOS社區站出來了。Block.one將作為EOS社區成員履行自己的職責。[2020/8/7]

數據質量檢查指定了數據維度的標準,即數據的完整性、有效性、及時性、唯一性、準確性和一致性。數據要么不符合這些標準,要么滿足這些標準,這揭示了有關其質量的信息(是高質量還是低質量)。您可以在這里了解更多關于數據質量及其重要性的信息。

數據質量規則將指定用戶定義為高質量數據的內容。例如,醫院可能將老年患者定義為年齡超過60歲。一個簡單的數據質量規則可以有以下形式:

規則:老年患者年齡>60歲

實際上,每家醫院可能都有不同的老年患者定義標準。因此,他們可能以不同的方式定義這些規則。通過這種方式,公司可以定義各種規則來識別有問題的數據。然后將這些規則添加到“規則庫”中,并在數據質量監控期間用于識別低質量條目。

一旦您的公司填充了這個規則庫,您將開發一個您希望數據遵守的標準或“常規行為”。不符合這些標準的數據是無效的、不完整的、不準確的。

動態 | 調查顯示:愛爾蘭的大多數人不知道區塊鏈是什么:一項新的研究表明,區塊鏈可能是下一個在技術方面很重要的東西,但愛爾蘭的大多數人不知道它是什么,因此沒有考慮過從事它。這項由Wachsman公司委托開展的對1000人進行的研究發現,在那些拒絕接受區塊鏈相關工作的人中,略多于一半的人表示,他們主要是因為不了解區塊鏈技術是什么。許多人還表示,他們沒有足夠的技能在區塊鏈工作。[2018/11/15]

例如,在我們上面的高級患者規則中,如果一個申請人的年齡是35歲,而用戶將其標記為“高級患者”,則此數據點將無效。

什么是異常檢測?

然而,還有一種方法可以在不需要編寫DQ規則的情況下找到與通常行為不同的數據點。這叫做異常檢測。它使用ML/AI來掃描數據,而不是DQ規則,以發現數據集特有的模式和期望值。一旦它了解了您的數據系統是如何工作的,它就可以自動找到不符合規范(或不符合這些模式)的數據,并標記條目以提醒相關方。不符合這些標準的值被稱為“異常值”。

一旦收到關于異常的警報,您將發現關于異常檢測服務為什么將該條目標記為異常的信息。例如,假設一家醫院在2月份記錄了10,000名患者,醫療保健系統收到一個警報,將此條目標記為異常。它可以通過數據集中的上下文解釋:這家醫院通常每月有大約1000名患者。這種突然的跳躍是出乎意料的(或者顯示為傳達此信息的圖形)。

Game.com創始人徐樂:現在誰都定義不了什么是區塊鏈游戲 :Game.com的CEO徐樂接受采訪時說:“我的第一條twitter是在07年發的。進入游戲領域10年后,我發了第二條twitter,說Game.com會告訴全世界什么是區塊鏈游戲。我說那句話的意思是:目前沒有人能夠定義什么是區塊鏈游戲。目前的概念都是錯誤的。只有干出來,干成了標準,做成了老大,再去定義才有意義。”后又在朋友圈分享想法:“1.首先需打造基礎服務,甚至比交易所還要安全的數字貨幣充提幣的自動化系統加人工風控,冷錢包存儲永不聯網的保障用戶的數字資產安全;2.有基礎后,才有資格為數字貨幣玩家群體提供娛樂服務,服務端的內容只有在非常必要的情況下才有必要放在區塊鏈上;3.一定要用區塊鏈思維去思考和設計新玩法,進行再創造,舍棄舊世界的東西。”[2018/3/3]

然后,您可以獲取這些信息,并確定它是一個異常數據點還是一個正常數據點。也許是因為新冠肺炎,那家醫院的病人激增了。根據您的響應方式,一些異常檢測算法可以從這種反饋中學習,并在未來更加準確地檢測異常。

蔡文勝:我為什么看好區塊鏈?:今日凌晨,知名投資人隆領資本蔡文勝在“三點鐘無眠區塊鏈”社群內分享觀點,整理如下:1.區塊鏈是一場大變革,目前只有小部分人先知先覺。 2.區塊鏈是人類有史以來最大的泡沫,但泡沫剛剛開始,同時也能助推技術革命。 3.現在進場比特幣仍是先行者,最后觀望者進場才是韭菜。 4.區塊鏈代表未來,投資區塊鏈就是投資價值。 5.目前政策是鼓勵區塊鏈技術發展的。 6.區塊鏈技術的發展一日千里,一天不學習就會落后。 7.未來會繼續分叉,但最終只會留存幾個主鏈,形成基礎貨幣;但應用數字貨幣不會比基礎貨幣價值低。 8.區塊鏈不是互聯網的升級版本,不單是技術的創新,更是商業邏輯的改革。 9.區塊鏈可參考互聯網的發展路線,從基礎設施、工具軟件,到最后和傳統行業結合。[2018/2/19]

在我們上面介紹醫院的例子中,假設所有申請懷孕相關服務的人都被貼上了“PREG”的標簽。如果絕大多數使用這些服務的患者在性別欄中有“F”(女性),異常檢測就會立即注意到“M”(男性)患者是否接受了“PREG”標簽。你不需要寫規則“PREG必須是F”來防止這種錯誤發生。

不同類型的異常

不同的業務角色有不同的方法來定義數據中的異常。

營銷團隊可能會收到異常數量的網絡研討會注冊,從一個公司的域名收到比平時更多的入站請求,或者從一個國家收到太多的請求(超過正常)。這些異常會影響他們的工作表現,并被標記為關鍵。

金色財經獨家消息:區塊鏈概念股的出現對于區塊鏈并不是什么好事:中網載線因區塊鏈概念,致使股價暴漲7倍,針對這種現象,金色財經就此事對鏈圈大咖進行了采訪,POW123創始人潘鵬程對此事發表了看法,他表示:“未來會有越來越多的公司借助這種手段讓自己公司的股票漲上去。”而鏈圈資深專欄作家幣學者也對此事發表了看法,幣學者表示,區塊鏈已經成為一個熱點,蹭到這個熱點,股價馬上飆升,這立竿見影的效果讓很多企業不想錯過此機會,這并沒有什么好奇怪的。但是在美國已經有企業因為這個被處罰,相信中國也會對此現象進行治理,不過眾多公司蹭區塊鏈的熱點對于區塊鏈而言反而并不是什么好事,也許這就是熱惹禍的根由。[2018/1/5]

數據工程師可能對兩個不同系統中關于同一實體(如客戶)的沖突信息更感興趣。

數據科學家可能會看到2月份某個隨機周四的平均銷售數據。然而,周四是公共假日,預計銷售額將增長兩倍。這肯定也是一個關鍵的異常!

因此,您可以說異常定義和異常檢測是相當主觀的。需要記住的重要部分是異常檢測服務必須能夠檢測所有形式的異常。在Ataccama,我們喜歡根據異常與數據的接近程度來定義異常。從高層(遠離實際數據,關于數據本身的更一般的信息)到低層(數據列中的異常,逐行,特定值/數據點),我們可以在三個類別中定義異常:元數據、事務數據和記錄數據。

元數據異常

元數據是使用度量來描述實際底層數據的數據。例如,數據質量元數據指的是關于數據資源(數據庫、數據湖等)質量的信息。元數據允許您以對用例有獨特意義的方式組織和理解數據,同時保持數據的一致性和準確性。

這一級別的異常處理“一般”數據,是最接近數據本身的異常。這些是關于數據的異常,而不是數據中的異常(然而,它們仍然可以表示數據中的問題)。當數據質量出現意外下降時,就會出現這種情況;當一個數據集/點通常以一種方式標記,但已經以另一種方式標記;或者在提取關于您所存儲的數據的數據時,缺少一定數量的記錄、記錄太少或記錄太多,以及發生任何其他意外情況。

事務性數據異常

從元數據轉向更接近特定數據的地方,我們到達了中間層——事務性數據。我們稱之為中間層,因為您正在處理來自實際數據的值,但通過聚合的鏡頭(即,每五天或每五分鐘一次)。交易數據通常包含某種形式的貨幣交易,因為分析此類數據的能力非常有用。例如,如果您有每五分鐘的銷售匯總,您可以使用它來確定最繁忙的時間,是否值得在晚上8點后營業等等。

在這一水平上出現的異常情況可能是在一年中銷售較慢的某周出現了意外的銷售增長,購物假期的銷售額與一周中正常日子的銷售額相似,或者一個分支機構的業績在繁忙的月份下降得異常低,等等。

記錄級別的異常

在記錄級別,異常檢測標記數據集中可疑的特定值。如果其中一個數據點缺失、不完整、不一致或不正確,則可以將這些值標記為異常。

我們的介紹是記錄級異常的一個很好的例子。數據集中的一個值(性別)是意外的,并且與系統中的其他值不協調。這只是一行信息,是包含患者年齡、既往病史、身高、體重等更大信息集的一部分。

記錄級別的異常檢測逐行探索每個表和列中的數據集,尋找任何不一致之處。它可以揭示數據收集、聚合或處理中的問題。

異常檢測類型

現在我們了解了不同類型的異常,我們可以進入不同的方法來檢測它們。一種方法側重于將時間作為數據的主要上下文,而另一種方法側重于在正常行為的上下文中發現異常。這兩種類型的異常檢測被稱為時間相關和時間無關。

時變異常檢測

依賴于時間的數據會隨著時間的推移而演變(考慮一下我們的事務性數據示例),因此了解何時捕獲值、何時輸入值、多個條目以何種順序到達等非常重要。通常,用戶將這些數據分組(聚合)在一起(例如,每小時或每天),并在組級別上尋找異常或趨勢,根據上下文發現異常值。

例如,當您有每日數據(即每天記錄一次)時,您可以預期一些季節性。換句話說,周一的期望值可能與周二不同。因此,不同的值在不同的日子可能是異常的。此外,這些數據經常在較長時期內發生變化。這可以用數據的趨勢或數據的漂移變化來表示。所有這些模式都需要時變異常檢測算法來捕獲。

非時變異常檢測

任何沒有時間維度的數據都可以被認為是“時間無關的”。換句話說,數據是什么時候創建的,輸入到系統中,數據到達的順序等等都不重要。只有實際值才重要。因此,算法只需要了解期望值是什么,或者更好的是,將它們放入“正態聚類”中。

這些異常與主數據(相對于事務數據)更相關:客戶記錄、產品數據、參考數據和其他“靜態數據”。

結論

總之,異常檢測算法允許您發現數據中不需要或意外的值,而無需指定規則和標準。它對您的數據集進行快照,并通過將新數據與過去關于相同或類似數據集發現的模式進行比較來識別異常。

至于對異常檢測工具可以做什么的期望:

無論這些異常發生在較高的級別(如元數據)還是接近實際數據本身(如記錄級別異常),您的異常檢測服務都需要能夠發現它們。

要應用于所有類型的數據,既需要時變異常檢測,也需要時變異常檢測。

您的服務還必須能夠處理不同的數據類型,易于使用和適應,并在將值標記為異常時提供可用的解釋。

異常檢測領域持續增長和發展。AI/ML正在數據管理領域得到更廣泛的采用和實現。我們可以預期異常檢測將變得越來越主動,而不是被動。這些工具將能夠在數據進入下游系統之前發現有問題的數據,從而造成損害。

異常檢測很有價值,因為它通常會揭示數據之外的潛在問題,例如物聯網設備中的缺陷機器、網絡中的黑客企圖、數據合并中的基礎設施故障或不準確的醫療檢查。這些問題通常很難預測,因此很難編寫DQ規則。因此,基于AI/ml的異常檢測是發現這些異常的最佳方法。

Tags:PREREGCPDPRE價格PRE幣REG價格REG幣CPD幣CPD價格

火幣APP
CPI:貨幣政策四季報再談通脹:預計通脹水平總體保持溫和,但消費復蘇存在不確定性_CPI幣是什么幣

本報記者劉佳北京報道 作為市場走勢重要風向標的貨幣政策四季報出爐。近日,央行對外發布了《2022年第四季度中國貨幣政策執行報告》,對通脹壓力、居民消費等熱點話題做了詳談,并從五個方面總結了去年全.

1900/1/1 0:00:00
Arbitrum:暗區突圍的出金率為何低,為何主播天天出大金?_RBIES

關于暗區突圍,玩家大多數吐槽是關于出金率,人機強度,戰斗bug,以及各種外掛,其中出金率是玩家最為看重且吐槽最多的,小編也玩了上千把暗區,對于出金率確實一言難盡,看主播玩經常出大金.

1900/1/1 0:00:00
區塊鏈:必讀!高質量讀物《聰明孩子要讀的365個好故事》,干貨超多非常動人!_NFT

今日推薦:《聰明孩子要讀的365個好故事》作者:星月。搜索書名開始觀看吧~ -----精選段落----- 第4輯中華成語故事 周武王建國初年,吸收商朝亡國的教訓,選賢任能,勵精圖治,國勢蒸蒸日上.

1900/1/1 0:00:00
清潔能源:新西蘭總理公開否認“買選票”,7月奧克蘭水費上漲9.5%_amber幣是什么幣

昨天,新西蘭總理ChrisHipkins宣布了一攬子政策旨幫助大家應對生活危機。Hipkins稱,實施這些計劃預計花費20億紐幣,惠及約140萬新西蘭人.

1900/1/1 0:00:00
MINA:千年''世仇''一夜和解,中國完成這一項壯舉,人民幣結算石油已成!_okx官方客服

閱讀此文前,觍顏誠邀您點擊一下“關注”,既方便您回看往期內容,還能進行討論與分享,給您帶來不一樣的參與感,感謝支持! 中東,千年紛爭的2個教派--遜尼派和什葉派.

1900/1/1 0:00:00
AQUA:綠色潮汐正在淹沒我們藍色星球的海岸線:以世界上最大的潮汐為例_DIS價格AQUA價格

摘要 世界各地都認為,屬于綠潮范疇的一系列事件是對沿海地區海水營養水平升高的反應。綠潮涉及廣泛多樣的地點、大型藻類物種、后果和可能的原因.

1900/1/1 0:00:00
ads