作為亞馬遜的一名員工,Nanowerk可以從符合條件的購買中獲得收入。
    smartworlder標誌
    smartworlder標誌

    大數據解釋-它是什麼,它做什麼

    內容
    ——大數據特征
    -大數據定義
    - DIKW金字塔-從數據到信息到知識到智慧
    -大數據分析的例子
    •大數據和氣候模擬
    •大數據和交通
    •大數據與材料科學
    無處不在的傳感的一個含義是由快速增長的物聯網(物聯網)是數據收集的爆炸性增長。這些數據來自多方麵:據預測,物聯網連接設備的數量將在2025年大幅增長到750億,到2030年將達到驚人的1250億。到那時,地球上的每個人將有將近15件東西連接到互聯網上。
    在我們互聯和移動的世界裏,數據源正變得比傳統數據更加複雜,因為它們是由數據驅動的人工智能(人工智能)、移動設備、社交媒體和物聯網。例如,不同類型的數據來自物聯網和其他傳感器和設備、金融交易、電子健康記錄、電子政府記錄、視頻/音頻、網絡、日誌文件、交易應用程序、web和社交媒體——其中大部分是實時生成的,規模非常大。
    簡而言之:數據無處不在。但是僅有大數據集是不夠的——你還需要適當的工具來確保它們是有用的,並從中獲得可操作的知識。除非有可能清楚地識別哪些數據點以及它們之間的聯係是真正重要的,否則大數據隻會提供噪音。
    大數據是指從多個不同的來源收集原始數據,將其存儲起來供分析程序使用,並以全新的方式從數據中獲取價值。換句話說,大數據不是關於數據,而是關於可以從數據中提取的價值,即數據中包含的意義。
    這意味著不能調用單一的技術大數據這需要一個由數據采集、存儲和應用技術緊密協調的生態係統來實現。

    大數據的特點

    傳統的數據架構無法處理這些數據集。實際上,“大數據”這個術語似乎暗示其他數據在某種程度上是小的(事實並非如此),或者處理它的關鍵問題是龐大的規模。然而,需要新的架構的大數據的特征不僅僅是體積(數字宇宙的大小,即世界上創建的所有數字數據,估計在2020年約為40澤字節(40萬億gb)):
    各種(例如,來自多個存儲庫、域或類型的數據)。結構化數據是可以在數據庫的列中整齊地組織起來的數據。這種類型的數據相對容易輸入、存儲、查詢和分析。非結構化數據更難分類和提取價值。非結構化數據的例子包括電子郵件、社交媒體帖子、文字處理文檔;音頻、視頻和照片文件;還有網頁。
    速度(即流速)。每一個第二個,穀歌收到近10萬次搜索;YouTube視頻的觀看量是相同的;超過1000張照片被上傳到Instagram,近1萬條推文被發布,超過300萬封電子郵件被發送().
    可變性(即其他特征的變化)。數據的含義是不斷變化的。例如,計算機處理語言是非常困難的,因為單詞通常有多種含義。數據科學家必須通過創建理解上下文和含義的複雜程序來考慮這種可變性。
    這些特征——體積、多樣性、速度和可變性——被通俗地稱為四對大數據。
    此外,大數據從業者還提出了額外的v,例如:
    真實性(即數據的質量)。如果源數據不正確,分析將毫無價值。
    可視化(即數據的含義)。數據必須能夠被非技術涉眾和決策者理解。可視化是創建複雜的圖表,講述數據科學家的故事,將數據轉化為信息,信息轉化為洞察力,洞察力轉化為知識,知識轉化為優勢。一個很好的例子就是氣候變化報道中經常出現的各種圖表:這些圖片價值超過10億個數據點:
    氣候變化數據圖
    價值(即機會和儲蓄)。最終,大數據的全部意義在於改善組織的決策。

    大數據定義

    大數據的幾個定義已經被提出,包括“超大數據集”;“大量的數據集需要一個可擴展的架構來進行有效的存儲、操作和分析”;以及我們這個世界數據的指數級增長和可用性。”
    大數據一詞描述了在當今網絡化、數字化、傳感器遍布、信息驅動的世界中收集的大量數據,以及用於從這些龐大而複雜的數據集中分析和提取信息的工具。
    大數據的數據量、速度和複雜性的增長速度超過了傳統的數據處理軟件。這就是為什麼改進的,全新的分析技術和過程正在被開發和不斷完善。這包括數據捕獲、數據存儲、數據分析、搜索、共享、傳輸、可視化、查詢、更新、信息隱私和數據源等領域。
    在這種情況下,術語大數據分析描述了應用嚴重的計算能力的過程-最新的機器學習和人工智能-大量和高度複雜的信息集。
    大數據的一個重要概念是元數據,它通常被描述為“描述其他數據的數據”,例如數據是如何和何時收集的,如何處理的,或如何與其他數據相關聯。

    DIKW金字塔-從數據到信息到知識到智慧

    DIKW金字塔是指用於表示數據、信息、知識和智慧之間據稱的結構和/或功能關係的一類模型。DIKW模型用於描述解決問題或決策的方法。盡管它是在計算機的早期發展起來的,但它仍然模擬了數據科學和機器學習中使用的許多概念。
    DIKW金字塔
    (來源:思維導圖G. Wagenmaker創作)
    數據通常隻是原始事實的集合,通常是從各種來源和多種格式收集的,除非對它們進行分析和組織,否則它們是非常無用的。例如,圖像和視頻可能包含大量數據,需要解釋才能從中提取信息。
    信息通過始終如一地根據用戶的要求組織、結構化和上下文化原始數據,從數據中獲得。這使得信息比原始數據更有價值。從本質上講,信息是在以“誰”、“什麼”、“在哪裏”、“何時”和“多少”開頭的問題的答案中找到的。
    一個關鍵的方麵知識是應用信息來回答問題或解決問題。結合過去的經驗和見解、專門知識和技能,情境化信息是獲取知識的關鍵。知識是最有價值的數據提煉,盡管知識為您提供了解決問題的方法,但它並不一定向您展示解決問題的最佳方法。
    選擇最佳方式來達到預期結果的能力來自於在早期嚐試中獲得的成功解決方案的經驗。DIKW模型將這種能力描述為智慧.人們通過經驗和知識獲得智慧,其中一些來自於對解決問題方法的理解,以及從解決同樣問題的其他人那裏收集情報。

    大數據分析的例子

    大數據分析已經在許多領域和行業發揮作用,這裏的例子太多了。所以我們隻是展示了一些,讓你了解大數據已經產生了什麼樣的影響。

    大數據與氣候模擬

    數據最密集的科學學科之一涉及行星氣候模擬。隨著科學家們不斷完善這些模型,以便盡可能詳細和精確地描述地球氣候係統的複雜性,相關數據的數量和複雜性正在呈指數級增長。
    氣候模型,也稱為地球係統模型,其工作原理是將氣候係統的物理、化學和生物學表示為數學方程。這些方程在三維網格上求解,單元格代表大氣、陸地和海洋。
    氣候模型
    目前的氣候模型將地球劃分為細胞,以預測未來的變化;這是通過下一代人工智能方法添加更多細節後,代表大氣的細胞可能會是什麼樣子。(圖片來源:哥倫比亞大學)
    大多數地球係統模型在超級計算機上運行,但它們需要科學家擁有更強大的計算能力。這限製了3D網格中單元格的大小(見上圖)。在目前的模型中,一個單元通常每邊80-100公裏,每個單元代表一個變量,如溫度、雲量或降雨量。
    為了提高氣候模擬的精度,並鼓勵社會為未來不可避免的破壞做好準備,以美國為例,美國國家科學基金會(NSF)選擇哥倫比亞大學領導一個氣候模擬中心用人工智能和物理學習地球(LEAP)
    全球氣候數據量正在迅速擴大,這給物理存檔和共享以及方便獲取和查找所需數據帶來了挑戰,特別是對不是氣候科學家的人來說。下圖顯示了氣候模型、遙感數據和全球氣候數據儲量的預計增長原位工具/代理數據。
    氣候模型
    (來源:10.1126 / science.1197869)
    氣候模型是建立在有充分記錄的物理過程的基礎上,用以模擬能源和物質在氣候係統中的轉移。這些模型使用數學方程來描述能量和物質在海洋、大氣和陸地的不同部分如何相互作用。
    建立和運行氣候模型是一個複雜的過程,需要識別和量化地球係統過程,用數學方程表示它們,設置變量來表示氣候強迫的初始條件和後續變化,並使用強大的超級計算機反複求解方程。
    氣候變化研究大數據框架
    氣候變化研究大數據框架。(點擊圖片放大)(來源doi:10.3390/bdcc3010012)

    大數據與交通

    大數據和物聯網協同工作。從物聯網設備中嵌入的傳感器中提取的大量非結構化數據為複雜的dikw型問題解決和決策過程提供了基礎,以改善許多行業的產品和服務。例子:
    物流UPS的疫苗追蹤技術使用具有gps功能的設備監測運輸中的COVID-19疫苗。該設備傳輸有關可能延遲或損壞敏感醫療保健運輸(如疫苗)的因素的數據——位置、溫度、運動和衝擊、光照(開箱)、大氣壓力和設備的剩餘電池壽命。這些詳細信息將實時傳輸到UPS醫療保健指揮中心,該中心是一個全天候監控中心,致力於確保疫苗和其他關鍵醫療保健包裹的及時交付。這些傳感器還有助於確保疫苗運輸和其他重要的醫療保健包裹在裝載到飛機、拖車和運輸卡車時得到優先安置。
    交通管理.智能交通係統部署在智能城市需要廣泛的傳感器網絡來創建大量的交通流和公共交通係統數據。這些係統從數千個交通攝像頭、道路探測器、交通燈、停車計時器、空氣質量和其他傳感器、移動應用程序和聯網汽車收集數據。
    然後,這些數據可以用來提高交通流量的效率,減少擁堵,並從長遠來看,幫助城市規劃者解決瓶頸問題。市民還可以通過實時獲取交通信息,從開放數據中受益,從而更好地規劃行程,避免擁堵。實時導航會提醒司機有延誤,並幫助他們選擇最快的路線。智能停車應用程序將他們直接指向可用的停車位,省去了在城市街區裏徒勞地轉來轉去的時間。應急服務得益於實時監控交通的係統,因此事故和中斷可以立即得到處理。例如,通過優化緊急呼叫調度和為應急車輛同步紅綠燈,城市可以將應急響應時間縮短20 - 35%。
    智能城市的一個主要挑戰是需要處理大量複雜的、地理分布的數據源(市民、交通、車輛、城市基礎設施、物聯網設備等),以及實時處理這些信息的額外需求。
    這些係統需要新的大數據管理方法。例如,歐洲人類項目開發了一種新穎的軟件架構框架,為智能城市、聯網汽車和未來自動駕駛汽車設計、部署和執行實時約束的分布式大數據分析。
    飛機安全及維修.傳感器分布在機翼、發動機、客艙和貨艙;幾乎每一平方厘米的飛機上都布滿了傳感器,從發動機性能到讀數燈的激活頻率,這些傳感器都能監控一切。例如,最新的空客A350飛機上有5萬個傳感器,每天收集2.5 tb的數據。發動機數據是最複雜的數據之一,每個現代飛機發動機中的數千個傳感器將數據輸入人工智能嵌入式維護和工程係統,使操作人員能夠立即采取行動並解決問題。
    這些係統能夠自動從飛機運行中獲取數據,然後更新維護程序。因此,壽命有限的發動機部件維護期限可以根據實際運行條件和每台發動機在使用中消耗的壽命進行更新。此外,通過監控飛機(機隊)的每一個操作方麵,航空公司已經節省了數百萬美元的燃料成本,改善了路線和安全,並學會了重新分配地麵資源,以便在航班延誤時自動觸發備份計劃。

    金融服務領域的大數據

    金融服務一直是一個數據密集型行業,從大量的信用卡交易到信用評分和欺詐檢測。為了讓你了解其範圍,2019年全球信用卡產生了約4410億筆購買交易。
    金融服務公司應用大數據的主要領域是:
    安全和欺詐檢測:對交易記錄等大型二級數據進行監控和分析,以增強銀行安全,並區分欺詐、網絡釣魚或洗錢等異常行為和模式。
    風險管理:分析銀行可免費獲取的內部信用卡數據,可進行信用評分和授信,這是最受歡迎的風險管理和投資評估工具的一部分。
    客戶關係管理:大數據技術已廣泛應用於銀行業的市場營銷和客戶關係管理,如客戶概況、客戶細分和交叉/向上銷售。這些有助於機構更好地了解客戶,預測客戶行為,準確定位潛在客戶,並通過戰略性的服務設計進一步提高客戶滿意度。

    大數據與材料科學

    從全球氣候變化到未來能源,材料創新是應對最緊迫挑戰的關鍵。然而,反複試驗和缺乏係統數據嚴重阻礙了材料研究的突破性發現。
    創造新材料並不像把幾個不同的元素丟進試管裏然後搖一搖看看會發生什麼那麼簡單。你需要把元素結合在原子水平上,才能創造出新的、不同的東西,而不僅僅是各種成分的異質混合物。周期表上的各種方塊幾乎有無限種可能的組合,挑戰在於知道哪種組合會產生這樣的材料。
    為了克服這一問題,2011年美國政府推出了材料項目開發新穎的可擴展方法,以較低的成本,以兩倍的速度發現、製造和部署先進材料。
    該計劃利用材料和計算機科學家之間的大規模合作,利用超級計算機的力量和基於最先進的量子力學理論的定製機器學習算法,以前所未有的規模和速度應用計算方法篩選和優化材料性能。
    例如,高通量計算篩選已成功用於預測多組分晶體和合金的相圖、鋰基電池的性能、有機分子中的非線性光學響應、光伏材料的電流電壓特性、太陽能電池的電極透明度和電導率以及汞合焓。
    可能的材料的數量隨著其內在結構的複雜性呈指數級增長,甚至使有效密度泛函理論的應用變得不可行。在納米技術在美國,情況就更加複雜了納米材料產生於通過選擇不同的納米材料尺寸(包括團聚和聚集)、溶解度和分散性、化學形式、化學反應性、表麵化學、形狀和孔隙度可以發展的潛在組合變化的純粹浩瀚。
    意想不到的形狀變化可能會對納米顆粒的行為和功能特性產生不利影響。這代表了一個巨大的挑戰,因為選擇具有實驗意義的樣品變得越來越困難,需要了解相關的尺寸、形狀和結構複雜性先天的
    大數據結合數據挖掘和統計方法可以解決這個問題。
    例如,大阪大學的研究人員利用機器學習設計新的聚合物用於光伏器件。在實際篩選了20多萬種候選材料後,他們合成了一種最有前途的材料,並發現它的性質與他們的預測一致。為了做到這一點,他們根據之前發表的實驗研究數據訓練的算法,篩選了數十萬對供體:受體對。嚐試了382個供體分子和526個受體分子的所有可能組合,得到了200,932對,通過預測它們的能量轉換效率進行了虛擬測試。
    SmartWorlder標誌
    請查看我們的smartworldder部分以了解更多信息智能技術
    Baidu
    map