你的瀏覽器禁用了JavaScript, 請開啟后刷新瀏覽器獲得更好的體驗!
輸入關鍵字進行搜索
搜索:
沒有找到相關結果
男兒當自強 - 天空飄來一朵云,那都不是事
贊同來自: 黑貓警長
全王 - 宇宙我最強
贊同來自:
黑貓警長 - 愛情原如樹葉一樣,在人忽視里綠了,在忍耐里露出蓓蕾
匿名用戶
參與討論請先登錄或注冊
愛情埋在心靈深處,并不是住在雙唇之間。
4 個回復
男兒當自強 - 天空飄來一朵云,那都不是事
贊同來自: 黑貓警長
其次,想要系統的認知大數據,必須要全面而細致的分解它,我著手從三個層面來展開:
第一層面是理論,理論是認知的必經途徑,也是被廣泛認同和傳播的基線。我會從大數據的特征定義理解行業對大數據的整體描繪和定性;從對大數據價值的探討來深入解析大數據的珍貴所在;從對大數據的現在和未來去洞悉大數據的發展趨勢;從大數據隱私這個特別而重要的視角審視人和數據之間的長久博弈。
第二層面是技術,技術是大數據價值體現的手段和前進的基石。我將分別從云計算、分布式處理技術、存儲技術和感知技術的發展來說明大數據從采集、處理、存儲到形成結果的整個過程。
第三層面是實踐,實踐是大數據的最終價值體現。我將分別從互聯網的大數據,政府的大數據,企業的大數據和個人的大數據四個方面來描繪大數據已經展現的美好景象及即將實現的藍圖。最早提出大數據時代到來的是麥肯錫:“數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對于海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來?!?br />
業界(IBM 最早定義)將大數據的特征歸納為4個“V”(量Volume,多樣Variety,價值Value,速Velocity),或者說特點有四個層面:第一,數據體量巨大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);第二,數據類型繁多。比如,網絡日志、視頻、圖片、地理位置信息等等。第三,價值密度低,商業價值高。第四,處理速度快。最后這一點也是和傳統的數據挖掘技術有著本質的不同
全王 - 宇宙我最強
贊同來自:
黑貓警長 - 愛情原如樹葉一樣,在人忽視里綠了,在忍耐里露出蓓蕾
贊同來自:
關于數據預處理的重要性, 我有切身體會。 當我還是University Of Pennsylvania的學生的時候, 我上了Machine Learning這門課, 這門課的final project就是訓練一個music genre predictor,根據歌詞判定歌曲的種類, 歌曲種類判定的準確率決定每個小組的名次。 所有的小組獲得的都是同樣的10000首歌詞作為training set, 然后對一組含有200首的歌test set進行判定。 我們小組使用了SVM+神經網絡訓練了一個predictor, 我們最后以93%的準確率排名第二, 領先第三名不到0.5%。 但是第一名的準確率超過96%。 他們同樣使用了SVM,但是在此之前, 他們對training set進行了預處理, 把每首歌詞中的標點符號提取出來, 作為一個額外的feature,這使得他們最后訓練出來的predictor準確率大幅領先其他組。
匿名用戶
贊同來自:
技術上也是圍繞這幾部分開展,現在比較火熱的技術集中在數據分析。
商業上,由于數據價值體現在數量上,還體現在信息密集度、關聯度,將來也可能出現數據交易分享,甚至是平臺。只有這樣才能更多發揮數據的價值。