2019-07-16 15:31:06 來源:互聯網
干垃圾or濕垃圾
你學會分類了嗎?
最近,上海的垃圾分類新聞成為了全國熱議的話題。先別急著笑,因為垃圾分類將從上海推開到全國46個城市試點,而且已經提上日程,所以如何做好垃圾分類,是我們每個人都要做的功課。
而說到了垃圾分類,小編就想到了數據分類,其實兩者何等的相似。曾經認為,數據只要安安靜靜地躺在磁盤里就好了,但隨著對數據的認識越來越深刻,人們發(fā)現數據其實是一座閃閃發(fā)光的金礦。
而隨著AI、IoT的向前發(fā)展,數據的價值還在不斷上升,已經成為企業(yè)最寶貴的資產。
從無人問津到視若珍寶,這種轉變,真是有種恍若隔世的感覺。不過,如果沒有正確地將數據因材施用,那么數據價值也無法真正實現,如同錯誤地把干垃圾放進濕垃圾桶里一樣。
所以,對IT人來說,學會數據如何分類,同樣重要!
?
下面小編就出幾
道題來考考各位
01
辦公文檔、文本、XML等各類報表應該歸類為結構化數據還是非結構化數據?
A. 結構化數據。
C.非結構化數據。
B. 兩者都不是。
D.兩者都是。
答案
C
解析:有些人誤以為只有圖像、影音之類的文件才是非結構化數據,其實凡是不適用于數據庫二維表來表現的都是非結構化數據,這包括所有格式的辦公文檔、XML、HTML、各類報表、圖片和咅頻、視頻信息等。
02
在結構化數據和非結構化數據之間,還有半結構化數據,以下對半結構化數據表述是正確的是?(多選)
A. 介于結構化數據與非結構化數據之間。
B. 一種適用于數據庫集成的數據模型。
C. 半結構化數據的構成更為復雜和不確定,從而也具有更高的靈活性,能夠適應更為廣泛的應用需求。
D. 既是結構化數據,也是非結構化數據。
答案
ABC
解析:半結構化數據是介于完全結構化數據和完全無結構的數據之間的數據。半結構化數據是結構化數據的一種形式,它并不符合關系型數據庫或其他數據表的形式關聯起來的數據模型結構,但包含相關標記,用來分隔語義元素以及對記錄和字段進行分層。因此,它也被稱為自描述的結構。
03
A.一個
C.三個
B.兩個
D.四個
答案
C
解析:一個證明存在性,一個證明唯一性,第三個推導出一種非構建算法來實現他。
04
什么是熱數據?
A.溫度高于40度的數據。
B.指機房通風不暢,吹不到空調的磁盤里的數據。
C.指需要被計算節(jié)點頻繁訪問的數據。
D. 是指溫度高于60度的數據。
答案
C
解析:這就不需要解釋了吧
05
冷數據和熱數據如何進行有效利用?
A.冷數據遠離空調,熱數據就近空調。
B.冷數據就近空調,熱數據遠離空調。
C.冷數據就近計算,熱數據集中存儲。
D. 冷數據集中存儲,熱數據就近計算。
答案
D
解析:由于熱數據是需要被計算節(jié)點頻繁訪問的在線類數據,因此需要就近計算,而冷數據冷數據訪問頻次低,效率要求慢,可以做集中化部署。
06
什么是流數據?
A. 會流動的數據。
B. 是一組順序、大量、快速、連續(xù)到達的數據序列。
C. 在短時間內被大量讀取或寫入的數據。
D. 一種名為流數據的液體。
答案
B
解析:關于流數據,可以看我們戴爾易安信中國研發(fā)中心的專家所寫的文章。
07
按照粒度來劃分,數據分為以下哪幾個類別?
A. 明細數據、狀態(tài)數據。
B. 匯總數據、原始數據。
C.明細數據、匯總數據。
D.匯總數據、衍生數據。
答案
C
解析:所謂數據粒度,指的是數據倉庫中數據單元的細節(jié)程度或綜合程度的級別。這種分類方式的相關場景有兩種,一種是在數據倉庫設計時,如何對數據進行匯總,按什么方式進行匯總,才能達到使用效率和匯總成本的平衡。另一種是數據分析人員在分析數據時,在明細數據、各種匯總數據之間選擇合適的數據,以提高分析效率。
08
A.按照字段類型劃分。
B.按照描述事物的角度劃分。
C. 按照數據粒度劃分。
D. 按照數據結構劃分。
答案
A
解析:按照字段類型分類數據的是最基本的數據分類方式。
09
從描述事物的角度,數據有哪幾個分類?
A. 狀態(tài)類數據、事件類數據、混合類數據。
B. 事件類數據、匯總類數據、時間類數據。
C. 事件類數據、混合類數據、明細類數據。
D. 狀態(tài)類數據、衍生類數據、混合類數據。
答案
A
解析:這種分類方式在數據倉庫建模是特別重要。數據倉庫需要保存各種歷史數據,不同類型的歷史數據保存方式差別很大。狀態(tài)類數據保存歷史的方式一般有兩種:存儲快照或者SCD方式。事件類數據一旦發(fā)生就已經是歷史了,只需直接存儲或者按時間分區(qū)存儲。混合類數據保存歷史比較復雜,可以把變化的字段分離出來,按狀態(tài)類數據保存,剩下不變的則按事件類數據保存,使用時再把兩者合并。
10
數據湖和數據倉庫的區(qū)別?(多選)
A. 數據湖比數據倉庫能存儲更多數據。
B. 數據湖是存儲大量原始數據,數據倉庫是存儲清洗加工過的,可信任的、結構良好的數據。
C. 傳統(tǒng)數據倉庫工作方式是集中式的,數據湖是開放式、自定義的。
D.數據倉庫存儲之前需要定義schema,數據湖是之后才需要定義。
答案
BCD
解析:數據湖建設思路從本質上顛覆了傳統(tǒng)數據倉庫建設方法論。傳統(tǒng)的企業(yè)數據倉庫則強調的是整合、面向主題、分層次等思路。其兩者并不是對等的概念,更多是包含;即數據倉庫作為數據湖的一類數據應用存在。
11
D記有一款處理非結構化數據的當紅炸子雞,它是?
A. Unity XT
C.Isilon
B. XtremIO
D. SC Series
答案
C
解析:Dell EMC Isilon是業(yè)界排名第一的橫向擴展NAS存儲平臺,專用于存儲、管理和保護海量非結構化數據,同時大幅降低成本和復雜性。
12
滅霸響指一打,地球上的人口瞬間少了一半,請問滅霸適合當什么職業(yè)?
A.數據挖掘師
C.算法工程師
B.數據分析師
D.存儲管理員
答案
C
13
A. John R. Mashey于1998年發(fā)表的《大數據與下一代基礎架構壓力》論文中最早提出。
B. 國際咨詢機構麥肯錫于2011年發(fā)布的《大數據:下一個創(chuàng)新、競爭和生產力的前沿》研究報告中最早提出大數據概念。
C. Doug Laney在2001發(fā)表的《3D數據管理:控制數據數量、速度及種類》研究報告中最早提出了大數據概念。
D. 1987年,一個名為JohnP.Nelson的人在comp.sources.misc新聞組發(fā)布了一串代碼,其中有這樣一段說明:#不管怎樣,它使用的是一個緊湊模型(小代碼,大數據),最早提出了大數據概念。
答案
A
解析:John R. Mashey最早提出了今天意義上的大數據,而比他更早提出的大數據概念,指的并不是今天意義上的大數據。
14
小明是搞數據分析的,已經學會了如何從DW中用SQL對數據ETL并建立Cube。目前想要找出今年2月份公司營業(yè)收入遠遠小于其它月份的原因,但至今未果,為什么?Ps.使用過spss、sas中的數據挖掘模型。
A.小明技術不到家
C.今年二月只有28天
B.小明用錯數據模型
D.二月是春節(jié)
答案
D
14道題,答對幾個了?
最后來一則廣告
現在購買普通中端存儲
即可1:1免費置換全閃存
更有多品類產品鉅惠出擊
買戴爾易安信存儲和服務器
買普通存儲,免費升級全閃,不加價!
獲取您的服務器專屬底價!
長按二維碼立享存儲優(yōu)惠!