国产微拍一区二区三区四区,亚洲欧美一区二区三区四区,黄色网址国产,动漫精品视频一区二区三区,免费人与牲口做爰视频,亚洲精品久久久久久一区,欧美槡BBBB槡BBB少妇,国产精品99,亚洲 日韩 国产 制服 在线

Internet Develppment
互聯(lián)網開發(fā)& 推廣服務提供商

我們擅長商業(yè)策略與用戶體驗的完美結合。

歡迎瀏覽我們的案例。

首頁 > 新聞中心 > 新聞動態(tài) > 正文

微軟亞研院20周年獨家撰文:數(shù)據智能的現(xiàn)在與未來

發(fā)布時間:2018-11-23 15:42:10來源:雷鋒網

  今年是微軟亞洲研究院(MSRA)20 周年,站在這個大節(jié)點上,MSRA 副院長張冬梅以及她的團隊寫了這篇有關數(shù)據智能的文章,對該領域的發(fā)展和未來進行梳理。本文貢獻者:崔為瑋,韓石,林慶維,樓建光,徐勇,張冬梅,張海東,朱斌。本文由雷鋒網首發(fā)。

  我們正處于大數(shù)據和數(shù)字化轉型的時代:數(shù)據無處不在;運用數(shù)據驅動的思想和策略在實踐中逐漸成為共識;數(shù)據的價值已在科學研究和工商業(yè)的不同領域得到充分展現(xiàn)。然而,如果無法從數(shù)據中提取出知識和信息并加以有效利用,數(shù)據本身并不能驅動和引領數(shù)字化轉型取得成功。如何讓數(shù)據發(fā)揮它最大的價值?“數(shù)據智能”(Data Intelligence) 應運而生。

  數(shù)據智能是一個跨學科的研究領域,它結合大規(guī)模數(shù)據處理、數(shù)據挖掘、機器學習、人機交互、可視化等多種技術,從數(shù)據中提煉、發(fā)掘、獲取有揭示性和可操作性的信息,從而為人們在基于數(shù)據制定決策或執(zhí)行任務時提供有效的智能支持。

  如果將數(shù)據視為一種新的“石油”,那么數(shù)據智能就是“煉油廠”。數(shù)據智能通過分析數(shù)據獲得價值,將原始數(shù)據加工為信息和知識,進而轉化為決策或行動,已成為推動數(shù)字化轉型不可或缺的關鍵技術。數(shù)據智能的重要性越來越凸顯,并在近年來取得快速發(fā)展。

  數(shù)據智能技術賦予我們探求數(shù)據空間中未知部分的能力,在不同領域里蘊育出巨大的機會。眾多基于互聯(lián)網的新型業(yè)務,包括搜索引擎、電子商務以及社交媒體應用等,從本質上就是建立和運作在數(shù)據智能的基礎之上。

  數(shù)據智能技術正在重塑傳統(tǒng)的商業(yè)分析或商業(yè)智能領域。根據 Gartner 的調研,一種新的 “增強分析”的分析模式正在顛覆舊有方式,預計在幾年內將成為商業(yè)智能系統(tǒng)采購的主導驅動力。這種“增強分析”模式正是由數(shù)據智能技術賦能,提供了自然語言查詢和敘述、增強的數(shù)據準備、自動的高級分析、基于可視化的數(shù)據探索等多種核心能力。

  那么,數(shù)據智能領域的技術進展如何?未來,數(shù)據智能的研究又有哪些熱點?

  數(shù)據智能的技術進展

  數(shù)據智能相關的核心技術大致可以分為數(shù)據平臺技術、數(shù)據整理技術、數(shù)據分析技術、數(shù)據交互技術、數(shù)據交互技術、數(shù)據可視化技術等部分。與傳統(tǒng)意義上的數(shù)據處理、數(shù)據分析相比,數(shù)據智能面臨很多新挑戰(zhàn)、新問題。在解決這些問題和挑戰(zhàn)的過程中,各種技術創(chuàng)新層出不窮。

  大數(shù)據系統(tǒng)與平臺

  為了支持大規(guī)模的數(shù)據處理與分析任務,全新的數(shù)據存儲系統(tǒng)需要能夠容納和支持高效數(shù)據吞吐、高可伸縮性和高容錯性。傳統(tǒng)的數(shù)據庫 OLTP 面向交易型需求而設計,無法滿足大數(shù)據統(tǒng)計分析類的查詢需求和應用。當前的大數(shù)據系統(tǒng)更加強調讀寫效率、數(shù)據容量以及系統(tǒng)的可擴展性。具體來說,將數(shù)據分割成塊,并將每塊復制多份后分散到不同物理機器上存儲,用冗余的數(shù)據塊來防止因個別機器損壞對數(shù)據完整性的影響。數(shù)據的冗余保存不但提高了系統(tǒng)的可靠性,同時也可以提高了系統(tǒng)在數(shù)據讀取時的并發(fā)性能。另外,為降低成本,現(xiàn)代的大數(shù)據系統(tǒng)運行在價格相對低廉的普通服務器上;這些機器通過高速網絡連接,實現(xiàn)高效的數(shù)據傳輸。

  處理和分析大數(shù)據涉及大量的計算,催生了很多分布式 NoSQL 數(shù)據處理系統(tǒng)。在計算模型上,MapReduce 的推出給大數(shù)據并行處理帶來了革命性的影響。在 MapReduce 基礎上進一步提出了新的計算模型 Spark。Spark 充分利用在內存中計算的優(yōu)勢,并且大大優(yōu)化了原來 MapReduce 中 Shuffle 所帶來的效率問題。經過幾年的發(fā)展,Spark 已經替代 MapReduce 成為業(yè)界最為重要的大數(shù)據處理框架,并且發(fā)展了非常豐富的應用生態(tài)。

  此外,基于流 (Streaming) 的計算模型被開發(fā)出來以支持不斷變化和更新的大數(shù)據應用。在流計算模型中,為了達到更實時的更新,每到達一個數(shù)據事件的時候就進行一次處理。Spark Streaming、Storm、Flink 都是比較流行的流計算平臺。

  在支持對大數(shù)據進行在線交互式的查詢和分析方面,來自不同領域的技術正在快速融合,共同構建更加實時高效的大數(shù)據交互查詢平臺。以 ElasticSearch 為代表的一類技術,借鑒搜索系統(tǒng)的索引構架和技術,對大規(guī)模非結構化和半結構化數(shù)據進行分塊、索引來支持快速查詢。以 Spark Kylin 為代表的另一類技術則將傳統(tǒng)的數(shù)據立方體技術推廣到大數(shù)據領域,通過將預先計算的部分數(shù)據立方體緩存起來,大大提高了運行時的查詢速度。

  隨著技術的發(fā)展,對數(shù)據進行高語義級別的自動分析變得越來越重要。自動分析技術往往需要頻繁計算在不同查詢條件下的聚合結果,一個分析查詢可能涉及成百上千次簡單的聚合查詢。這就對查詢性能提出了更高的要求。為了解決這個問題,同時也考慮到大數(shù)據分析中絕大多數(shù)任務對數(shù)據的完整性不太敏感這一特點,學術界又提出了 BlinkDB、BigIN4 等技術和系統(tǒng),希望利用通過采樣或者預計算得到的部分數(shù)據來對用戶的查詢結果進行估計,從而達到快速計算的目的。其中 BlinkDB 試圖利用分層采用的方法來減少估計的誤差,而 BigIN4 則試圖通過貝葉斯估計方法來優(yōu)化用戶查詢的估計誤差。

  基于自然語言的交互

  為了降低數(shù)據分析的門檻,使用自然語言作為交互方式顯然是一個理想方案,可以極大地方便普通用戶快速、有效地進行數(shù)據探索與數(shù)據分析。近年來,隨著自然語言處理和人工智能技術的快速進步,使用自然語言來查詢和分析數(shù)據變得更加可能。

  自然語言數(shù)據分析要解決的最重要的問題是語義解析。語義解析技術是將自然語言直接轉化成可以執(zhí)行的程序 (例如 SQL 語句)。基于關系數(shù)據庫/數(shù)據表的語義解析技術是解決自然語言交互式查詢的重要途徑。早期主要采用基于模式匹配的方法,后來出現(xiàn)了基于語法分析與語義分析的第二代方法。

  近年來,隨著深度學習技術的發(fā)展,涌現(xiàn)出了一系列的端到端的語義解析模型。一般的端到端模型采用 sequence-to-sequence 的方法,將自然語言進行序列編碼,然后逐步生成 SQL 語句,但是這種方法的缺點是容易產生不正確的或者不可執(zhí)行的 SQL 語句。因此,在端到端的方法的基礎上會融合各種知識來減少搜索空間,增加約束,包括嵌入 SQL 語法知識,引入表格信息,甚至是引入外部的知識庫,比如 WordNet。

  分析的自動化

  數(shù)據分析是數(shù)據智能中最核心的部分,大致可以分為描述性分析、診斷性分析、預測性分析、指導性分析等四個類別,每個類別基于數(shù)據回答不同的問題,難度越來越大,所能帶來的價值越來越高,所使用的技術也越來越復雜。數(shù)據智能分析工具的發(fā)展經歷了如下四個重要的階段和層次。

  階段1:數(shù)據智能專家深入學習和了解特定領域的問題,構建端到端 (end-to-end)的分析流程和平臺,以特定領域的數(shù)據分析師為主要用戶,以解決特定領域的專業(yè)問題為主要任務。

  階段2:數(shù)據智能專家通過對各個領域的深刻總結,提煉出在不同領域的任務中所共同依賴的一些必要的需求單元,比如分布差異分析、主驅動因素分析、預測分析等等。把各個需求單元對應的數(shù)據智能技術以積木塊搭建的形式組成一個分析平臺,提供給各個領域使用。用戶按照自己分析任務的需求,可以在分析流程中選擇相應的技術模塊。

  階段3:進一步發(fā)揮機器的“智能”性,在分析任務的各個環(huán)節(jié),通過主動提供相關洞察 (Insight) 的形式,為用戶的下一步決策或行動提供信息充足的引導性建議,從而更大程度地提高人類智能與機器智能的互補,完成更高效的協(xié)作。

  階段4:在前三個階段中,數(shù)據的處理、特征的選取、模型的設計以及參數(shù)的優(yōu)化等等核心環(huán)節(jié)嚴重依賴于機器學習專家的知識和技能。隨著機器學習理論的進一步發(fā)展,Auto ML 技術開始出現(xiàn)并發(fā)展起來,其核心是基于對已有機器學習成果的總結,將上述重要環(huán)節(jié)進行系統(tǒng)化的抽象,并結合不斷快速發(fā)展的計算機處理能力,使其逐漸自動化,從而進一步降低數(shù)據智能模塊的開發(fā)門檻,拓寬對長尾任務的支持,推動人類智能和機器智能的進一步融合,也使不同領域的普通用戶以自助方式按需定制針對具體任務的數(shù)據智能模塊變得可能。

  數(shù)據融合的自動化

  如何有效整理、融合如此多樣且繁雜的數(shù)據對于數(shù)據智能領域非常重要。數(shù)據融合的相關技術在整體上需要解決以下關鍵問題。

  首先,在機器從數(shù)據中獲取智能之前,機器能夠正確地讀懂各種各樣的數(shù)據。對于機器友好的數(shù)據是類似關系數(shù)據庫的結構化數(shù)據。然而,現(xiàn)實世界里存在著大量的非結構化數(shù)據,比如自然語言的文本;還有介于兩者之間的半結構化數(shù)據,比如電子表格。目前機器還很難理解這些非結構化的方面,需要將數(shù)據處理成對機器友好的結構化數(shù)據,機器才能發(fā)揮其特長,從數(shù)據中獲取智能。非結構化數(shù)據、尤其是半結構化數(shù)據向結構化數(shù)據的轉化,是實現(xiàn)數(shù)據智能不可或缺的先決任務。

  其次,數(shù)據并不是孤立的,數(shù)據智能需要充分利用數(shù)據之間存在的關聯(lián),把其他數(shù)據源或數(shù)據集所涵蓋的信息傳遞并整合過來,可以為數(shù)據分析任務提供更豐富的信息和角度。

  最后,數(shù)據并不是完美的,提前檢測并修復數(shù)據中存在的缺失或錯誤,是保障數(shù)據智能得出正確結論的重要環(huán)節(jié)。

  數(shù)據可視化

  數(shù)據可視化本質上是為了感知和溝通數(shù)據而存在的,涉及到不同的領域,諸如人機交互、圖形設計、心理學等。在當前大數(shù)據盛行的時代,數(shù)據可視化逐漸嶄露頭角,扮演著越來越重要的角色。

  可視化技術用于分析,已成為數(shù)據智能系統(tǒng)不可或缺的部分。這些技術通常會集成在一個圖形界面上,展示一個或多個可視化視圖。用戶直接在這些視圖上進行搜索、挑選、過濾等交互操作,對數(shù)據進行探索和分析。可視化工具進一步趨于簡單化、大眾化,使一些高階的分析變得更加簡單。一些高級的可視化設計,如 Word Cloud、Treemap、Parallel Coordinates、Flowmap、ThemeRiver 等,也逐步成為主流。

  在決策過程中,可視化也發(fā)揮著重要的作用,它能將信息展示得更準確、更豐富、更容易理解,從而極大提高人與人之間的溝通效率??梢暬瘮⑹?(visual storytelling) 研究如何將可視化用于信息的展示和交流。 當今主流的數(shù)據分析平臺,例如 Power BI、Tableau、Qlik 等,都提供了可視化敘事的模式??梢暬瘮⑹碌难芯磕壳斑€處在一個比較早期的階段,人們還在探索它的各個方面,例如修飾形式、敘事方式、交互手段、上下文、記憶性等。如何評估一個可視化敘事也有待進一步研究。

  基于隱私保護的數(shù)據分析

  近年來,隨著數(shù)據隱私問題成為關注的焦點,以及相關數(shù)據保護的立法 (比如 GDPR) 開始實施,研究人員開始積極探索保護隱私的數(shù)據分析技術,即在保護數(shù)據隱私的情況下,對數(shù)據進行管理和處理。

  一個方向是提供可信計算環(huán)境去執(zhí)行敏感操作。用戶的數(shù)據始終是加密的,只有在可信計算的環(huán)境中才會解密及處理。

  另一個方向是直接對加密數(shù)據進行處理得到想要的結果,因為數(shù)據沒有解密,隱私得到了保證。選擇性加密技術早已廣泛應用于多媒體內容保護,但很難擴展到其他類型的數(shù)據。另一種適用性更廣的方法是同態(tài)加密,它允許對密文進行某些同態(tài)操作,例如加法和/或乘法,使得密文下的運算結果在解密后與對明文執(zhí)行相應操作的結果一致。

  數(shù)據智能技術的未來熱點

  數(shù)據智能研究契合當今大數(shù)據時代各領域、各行業(yè)從數(shù)據中挖掘、實現(xiàn)價值,進行數(shù)字化轉型的迫切需要,因而在近年來得到了充分重視,發(fā)展迅速。隨著數(shù)據智能在更多領域的落地和發(fā)展,新的應用和場景、新的問題和挑戰(zhàn)將進一步激發(fā)和驅動數(shù)字智能研究保持強勁的發(fā)展勢頭,邁向更高的層次。展望未來,數(shù)據智能技術將朝著更自動、更智能、更可靠、更普適、更高效的方向繼續(xù)發(fā)展。

  熱點1:在更高的語義理解水平上進行分析

  為了更加智能地分析數(shù)據,需要對數(shù)據有更加豐富的語義理解。與知識圖譜 (Knowledge Base) 不同,雖然數(shù)據分析中最常用的關系數(shù)據模型也是對實體和關系的建模,但是關系數(shù)據模型的建模是為查詢和存儲性能而優(yōu)化的,往往丟失了大量語義信息。如何引入領域知識和常識型知識對于更好地理解數(shù)據至關重要。

  如何從表格數(shù)據和其他容易獲得的文本數(shù)據 (如 web 網頁) 中自動獲取語義信息來增強和豐富表格數(shù)據是一個需要研究的重要方向。比如,確定表格中行或列的實體類型 (包括人名、地名、機構名等命名實體以及時間、地址、貨幣等數(shù)據類型)。表格往往不具有文本中的豐富的上下文信息,因此表格中的實體識別不同于其他自然語言處理任務中的實體識別,十分具有挑戰(zhàn)性。除了處理實體識別外,數(shù)據表格中實體關系的挖掘和分析也至關重要。充分挖掘實體之間的關聯(lián)關系可以完成一些實體類型的推薦和回答數(shù)據分析的問題。

  熱點2:構造通用知識和模型的框架

  人類對知識和方法能夠舉一反三,觸類旁通。具體到數(shù)據分析領域,分析中用到的知識和模型需要在不同數(shù)據對象和分析任務之間共享和遷移。在機器學習領域,已經有很多相關工作,也提出了一些方法,比如遷移學習、多任務學習、預學習模型等等。要實現(xiàn)這個“舉一反三”的目標,除了需要深入研究具體的機器學習算法,也需要從模型和知識的框架體系來思考,研究適合數(shù)據分析領域的通用知識和模型的原語體系,以及知識和模型的遷移共享的統(tǒng)一框架。

  熱點3:建立高質量的訓練數(shù)據集和基準測試數(shù)據集

  由于訓練數(shù)據的缺乏,人工智能、深度學習等技術在數(shù)據智能領域的進一步應用遇到了很大的困難。正如 ImageNet 數(shù)據對于計算機視覺領域的研究起到了顯著的推動作用一樣,數(shù)據智能領域的研究也亟需建立起一整套公用的大規(guī)模、高質量的訓練數(shù)據集和基準測試數(shù)據集。一旦有了豐富的訓練數(shù)據,數(shù)據智能領域的很多研究,諸如自動分析、自然語言交互、可視化推薦等等,將會取得突破性的進展。

  熱點4:提供具有可解釋性的分析結果

  用戶將不再滿足于僅僅依賴黑盒式的智能、端到端地作用于整個任務,而需要更細粒度的、有針對性的、更透明的數(shù)據智能。例如,數(shù)據智能用于財務審計系統(tǒng)中,準確推薦最有風險的交易記錄進行優(yōu)先審查,以達到在最小化系統(tǒng)風險的前提下,最大化審計效率。在這類系統(tǒng)的研發(fā)中,需要構建可理解性強的模型。在推薦高風險交易記錄的同時,盡量提供系統(tǒng)是依據哪部分信息、通過怎樣的邏輯判斷這是一條高風險交易的相關依據。這與過去通常使用的黑盒技術路線有了明顯的變化,將成為今后技術發(fā)展的一個趨勢。

  熱點5:人類智能和機器智能更加緊密融合

  現(xiàn)有人工智能技術從本質上依然只是被動服從人類設定的既定邏輯然后自動地運行,歸根到底還是無法突破人類傳授的學習框架,沒有創(chuàng)造力。因此在可預見的未來,數(shù)據智能將依然無法擺脫人與機器協(xié)作的模式,需要全面地總結人類在數(shù)據分析方面的智能和經驗,便于轉化為機器算法,系統(tǒng)化地集成到已有的智能系統(tǒng)當中。

  熱點6:強大的指導性分析成為主流

  數(shù)據分析的核心目標之一便是指導行動,無論分析得有多好,如果不采取行動,那么分析的價值就不會得到實質的體現(xiàn),這就是指導性分析的重要價值所在。

  例如,根據詳盡的分析,數(shù)據智能預測某品牌在接下來一個季度的銷量會下滑 10%。如果分析任務結束于此,那么數(shù)據智能并沒有盡到全部的責任,人還需要根據后續(xù)分析結合自己的經驗去搞清楚怎樣才能減輕甚至避免潛在的銷量下滑。相應的指導性分析可以是,如果想保持下季度銷量不下滑,應該采取怎樣的行動。指導性分析的結果可以是把某一類子產品的產量減少 20%,同時把另兩類子產品的產量各增加 10% 等等。

  現(xiàn)在的數(shù)據智能技術在給出指導性分析的同時,并沒有具備足夠解釋性的模型,無法提供充足的依據,從而不足以讓人類用戶充分信任自動推薦的結果。提供具有更好解釋性的指導性分析是一個趨勢。

  熱點7:基于隱私保護的數(shù)據分析更加成熟完善

  通過從立法、技術、到用戶參與等全方位的共同努力,隱私保護將被進一步納入到未來的數(shù)據分析中。從技術層面, 應該確保個人數(shù)據由數(shù)據主體控制如何收集、管理、處理和共享,并在整個生命周期得到保護,同時應開發(fā)并部署保護隱私的數(shù)據處理技術,以便在保護隱私的前提下,數(shù)據得以處理并獲得想要的結果。

  熱點8:智能分析助手得到普及

  智能代理 (Intelligent Agent) 技術與數(shù)據分析技術的融合是一個重要的方向。在不久的將來,智能的數(shù)據分析助手能夠幫助人類更加高效地分析和利用數(shù)據。

  這些數(shù)據分析智能助手通過自然語言對話的方式與人交流數(shù)據分析的任務和結果,理解分析的背景和上下文,可以完成人類交給的特定數(shù)據分析任務 (根據分析的語義層級不同,可分為基本分析命令和高級數(shù)據挖掘任務),也可以把具有商業(yè)價值的數(shù)據事實推薦給相關人類用戶 (比如自動從數(shù)據中挖掘到的數(shù)據洞察),并對某些數(shù)據事件做出智能判斷和適當?shù)姆磻?(比如自動對數(shù)據中需要注意的變化進行提示和警報)。這樣的智能體還具有一定的學習能力,能夠通過與人類分析師的對話交流積累特定領域的知識,從而能夠更加具有針對性和更加智能地進行自動數(shù)據分析。

  熱點9:協(xié)作化的可視分析

  隨著各種溝通工具的興起和普及,協(xié)作化的可視分析會成為熱點。不同于傳統(tǒng)的面對面、小規(guī)模的協(xié)作,新的協(xié)作分析往往是異步的和大規(guī)模的,人們在不同的時間和地點,使用不同的設備,對同一個數(shù)據進行可視分析。在此過程中,如何協(xié)調人們的協(xié)作?如何避免重復性的工作?如何保證不同人在不同的顯示終端上看到的數(shù)據是一致的?如何共享各種信息?如何搭建一個高效的協(xié)作平臺?這些都是需要解決的技術挑戰(zhàn)。

  熱點 10:可視化將無所不在

  在更長遠的將來,我們相信可視化終將變得透明。就像文字和語音一樣,廣泛滲透到我們的日常生活中。為此需要有三個方面的技術儲備:

  首先,可視化視圖必須能夠被快速地生產和消費。目前,多數(shù)可視化視圖的生成還是離不開人的參與,但是在人工智能的幫助下,未來在人工智能的幫助下,可視化視圖將能被大規(guī)模和精確地生成,從而大大降低可視化創(chuàng)作的開銷。

  其次,要進行交互方式的變革。傳統(tǒng)的基于鍵盤、鼠標的交互模式不是最自然的方式,各種人類更習慣的方式 (例如手勢、筆紙、觸控等) 需要慢慢演化成更成熟的交互手段。

  最后,需要顯示設備的普及。顯示設備終將被集成到人的生活中去,無論是穿戴式的、手持的,還是出現(xiàn)在人們日常生活的物品表面上的。只有當顯示設備無處不在的時候,可視化才能真正變成一種溝通的基本方式。
  (邯鄲網站建設

最新資訊
? 2018 河北碼上網絡科技有限公司 版權所有 冀ICP備18021892號-1   
? 2018 河北碼上科技有限公司 版權所有.