隨著人工智能技術的逐步普及,越來越多的行業(yè)開始擁抱人工智能,用“人工智能+”助力技術和產業(yè)的不斷升級和變革,人工智能已經成為我們當前這個時代的標志。對于企業(yè)來說,如果想用人工智能來武裝自己,就必須搞清楚人工智能技術的核心。
人工智能的概念始于1956年的達特茅斯會議,由于受到數據、計算力、智能算法等多方面因素的影響,人工智能技術和應用發(fā)展經歷了多次高潮和低谷。2006年以來,以深度學習為代有的機器學習算法在機器視覺和語音識別等領域取得了極大的成功,識別準確性大幅提升,使人工智能再次受到學術界和產業(yè)界的廣泛關注。數據、計算力和算法被認為是人工智能發(fā)展的三大核心要素,數據是基礎,算法是核心,計算力是支撐。
因此,要衡量一個大數據分析平臺的核心能力,最為關鍵的一定是其所具備的算法能力。Tempo大數據分析平臺作為國能領先的大數據分析與應用平臺,自主研發(fā)的強大算法引擎是它區(qū)別于其他市場同類型工具的重要標志。接下來,小編就為大家隆重介紹一下Tempo平臺的核心算法體系。
1) 基于分布式架構的算法設計
平臺所有算法均基于Spark分布式內存計算框架開發(fā),并采用Scala語言進行算法實現,能夠支持海量數據的高效挖掘分析。
2) 多樣化、全面化的算法選擇
平臺內嵌130余種數據分析方法,涉及數據預處理、回歸、聚類、分類、關聯規(guī)則、時間序列、綜合評價、文本分析、推薦、統(tǒng)計圖表十大類別。
3) 智能化的自學習算法
平臺內置自動擇參、自動分類、自動回歸、自動聚類、自動時間序列等多種自學習功能,幫助用戶自動選擇最優(yōu)算法和參數,一方面降低了用戶對算法和參數選擇的經驗成本,另一方面極大的節(jié)省用戶的建模時間成本。
4) 更便捷的深度學習
平臺一方面提供DNN、RNN、LSTM等深度學習算法節(jié)點,讓用戶可以和使用其他機器學習算法一樣,快速構建深度學習模型,另一方面平臺支持基于SparkOnTensorFlow的深度學習集群框架,方便用戶自由編寫深度學習代碼邏輯,實現更靈活的自主深度建模分析。
5) 模型性能提升利器之集成學習
集成學習嚴格意義上來說,這不算是一種機器學習算法,而更像是一種優(yōu)化手段或者策略,它通常是結合多個簡單的弱機器學習算法,去做更可靠的決策。集成學習是一種能在各種的機器學習任務上提高準確率的強有力技術,集成算法往往是很多數據競賽關鍵的一步,能夠很好地提升算法的性能。平臺提供Bagging、Voting等集成學習框架節(jié)點,同時支持Xgboost、GBDT、Adaboost等集成學習算法。
6) “精細化、結構化”的文本分析
目前,市場上的文本工具主要是以文本整體分析應用為主來設計功能,未從技術角進行細致的功能劃分,這樣導致用戶對于文本的分析過于主題化,用戶在分析過程中無法過多的加入自己的構建思想,同時無法真正將文本挖掘技術與傳統(tǒng)結構化數據挖掘技術融合在一起。
本平臺中的文本挖掘算法模塊以“拖拽式操作、精細化節(jié)點設計、結構化自由文本為目標”的設計理念為指導,將文本挖掘的各技術功能點進行粗細劃分,使得節(jié)點的功能更集中更明確,一方面兼顧了NLP技術的獨立性,另一方面通過結構化輸出將各功能節(jié)點的輸出統(tǒng)一成結構化數據表方便與平臺已有的其他建模分析節(jié)點串聯復用。
7) 可擴展式的設計
平臺一方面內置Python、R、Scala、JAVA編程節(jié)點,方便用戶實現個性化數據分析邏輯,另一方面通過提供自定義算法功能,用戶可以將本企業(yè)所研究的成熟算法,通過該功能在平臺上發(fā)布,形成固化的算法節(jié)點,供平臺所有用戶使用。
目前Tempo大數據分析平臺中的算法不論從種類還是數量上已經遙遙領先于市場上的同類產品,其有效性、準確度可比肩國際一流工具,且支持大數據環(huán)境的分布式運算,能夠保障海量數據挖掘的分析效率。
為了能夠給用戶提供更簡單、可靠、全面、智能的分析服務,未來Tempo大數據分析平臺將更多的在人工智能技術領域持續(xù)發(fā)力,提升平臺的技術先進性,為用戶帶來更多更好的智能化分析體驗。
服務熱線
400-608-2558
咨詢熱線
15502965860