欧美40老熟妇色xxxxx,免费+国产+在线观看,末成年女a∨片一区二区,久久伊人色av天堂九九,免费中文熟妇在线影片

美林?jǐn)?shù)據(jù)
ABOUT US
美林?jǐn)?shù)據(jù)技術(shù)股份有限公司(簡稱:美林?jǐn)?shù)據(jù),NEEQ:831546)是國內(nèi)知名的數(shù)據(jù)治理和數(shù)據(jù)分析服務(wù)提供商。

Tempo大數(shù)據(jù)分析平臺之文本分析

2020-04-09 11:02:55
據(jù)IDC報告,當(dāng)下數(shù)據(jù)以每年50%左右的速度快速增長,截至2020年全球數(shù)據(jù)規(guī)模將達44ZB,其中文本等非結(jié)構(gòu)化數(shù)據(jù)占比高達75%-85%,因此對文本等非結(jié)構(gòu)數(shù)據(jù)的挖掘分析顯得尤為迫切和重要。
文本挖掘分析常規(guī)挖掘流程
圖1,全球非結(jié)構(gòu)化數(shù)據(jù)量增長情況
文本分析(Text Mining)指從大量非結(jié)構(gòu)化文本數(shù)據(jù)中抽取未知的、可理解的、最終可用的知識,并運用這些知識更好地組織信息,進而獲取用戶感興趣或有用模式的過程。
文本分析流程大致可以描述為:基于網(wǎng)頁、文檔、字符等非結(jié)構(gòu)化文本數(shù)據(jù),利用自然語言處理技術(shù)實現(xiàn)非結(jié)構(gòu)化文本數(shù)據(jù)結(jié)構(gòu)化,再結(jié)合機器學(xué)習(xí)、統(tǒng)計分析、可視化分析等技術(shù)進行挖掘分析,進而實現(xiàn)搜索引擎、輿情分析、新聞分類、郵件過濾、智能問答、話題分析等業(yè)務(wù)場景應(yīng)用。其中,平臺文本分析模塊即是實現(xiàn)自然語言處理常用功能模塊,比如:分詞、信息抽取、特征選擇、主旨話題分析、關(guān)鍵詞、命名實體識別、向量空間、情感分析、垃圾信息檢測等功能。
文本挖掘分析常規(guī)挖掘流程
圖2,文本挖掘分析常規(guī)挖掘流程
Tempo大數(shù)據(jù)分析平臺文本分析模塊前期建設(shè)理念是基于淺層語言分析實現(xiàn)非結(jié)構(gòu)化文本數(shù)據(jù)結(jié)構(gòu)化,進而結(jié)合平臺機器學(xué)習(xí)、挖掘分析等技術(shù)實現(xiàn)文本分析挖掘。Tempo大數(shù)據(jù)分析平臺文本挖掘模塊功能模塊架構(gòu)如下圖所示,功能架構(gòu)分四個層次:數(shù)據(jù)層、基礎(chǔ)層、分析層、應(yīng)用層。數(shù)據(jù)層是平臺輸入的待處理文本數(shù)據(jù),基礎(chǔ)層為平臺自然語言處理模塊提供支撐,分析層主要完成非結(jié)構(gòu)化文本的自然語言處理并基于結(jié)果進一步做機器學(xué)習(xí)、可視化分析、統(tǒng)計分析,應(yīng)用層基于分析層的結(jié)果實現(xiàn)相關(guān)文本處理業(yè)務(wù)場景應(yīng)用。
Tempo大數(shù)據(jù)分析平臺文本挖掘模塊功能架構(gòu)
圖3,Tempo大數(shù)據(jù)分析平臺文本挖掘模塊功能架構(gòu)
Tempo大數(shù)據(jù)分析平臺文本挖掘核心是基于自然語言處理實現(xiàn)非結(jié)構(gòu)化文本的處理功能,平臺自然語言處理模塊的功能概要如下表:
表1,自然語言處理模塊的功能概要
自然語言處理模塊的功能概要
基于自然語言處理和機器學(xué)習(xí)做文本挖掘的處理流程:首先對文本數(shù)據(jù)進行分詞處理,其次,基于分詞數(shù)據(jù)進行特征詞選擇、向量空間實現(xiàn)文本向量化,至此即可打通和平臺機器學(xué)習(xí)(分類算法、聚類算法)的接口,最后,基于機器學(xué)習(xí)模塊實現(xiàn)文本分類、文本聚類等相關(guān)業(yè)務(wù)場景應(yīng)用,比如,新聞分類、文檔聚類、輿情分析等。
如圖4,基于新聞咨詢數(shù)據(jù)實現(xiàn)的新聞自動分類建模流程,左半部分是基于自然語言處理(分詞、特征選擇、向量空間模塊)實現(xiàn)文本向量化,右半部分基于平臺的邏輯回歸分類算法構(gòu)建新聞分類器,并對模型進行評估分析。
新聞分類挖掘流程
圖4,新聞分類挖掘流程
基于自然語言處理和可視化分析做文本挖掘的處理流程:首先對文本數(shù)據(jù)進行分詞處理,其次,基于分詞數(shù)據(jù)進行情感分析、信息抽取、信息檢測、關(guān)鍵詞抽取、主旨話題分析等文本分析,將以上分析結(jié)果由結(jié)構(gòu)化輸出節(jié)點進行結(jié)果重構(gòu)輸出,最后,可基于可視化分析技術(shù)實現(xiàn)文本分析。
如圖5,基于電商平臺手機評論數(shù)據(jù)實現(xiàn)手機產(chǎn)品市場分析流程:左半部分基于自然語言處理(分詞、信息抽取、觀點情感分析、關(guān)鍵詞抽取、主旨話題分析)實現(xiàn)文本相關(guān)分析:

  • 信息抽取實現(xiàn)從手機產(chǎn)品描述中抽取手機品牌和手機型號信息;
  • 情感分析判別評論的情感傾向;
  • 主旨話題分析評論文本的關(guān)注焦點;
右半部分將整合的數(shù)據(jù)輸出到數(shù)據(jù)庫,可進一步接入可視化分析平臺實現(xiàn)手機產(chǎn)品市場分析場景:
  • 不同品牌、型號的手機在市場上的受歡迎程度分析;
  • 不同年齡段的顧客對手機的關(guān)注點分析;
  • 產(chǎn)品在不同區(qū)域的市場占有情況分析;
手機評論分析數(shù)據(jù)挖掘流程

圖5,手機評論分析數(shù)據(jù)挖掘流程
文本挖掘模塊特點: 流程化設(shè)計理念,豐富的功能模塊,基于分布式計算法框架開發(fā),和平臺節(jié)點進行有機集成:
平臺文本挖掘模塊特點
圖6,平臺文本挖掘模塊特點
  • 流程化設(shè)計:平臺文本挖掘采用流程挖掘模式,用戶使用方便,業(yè)務(wù)流程易于理解;
  • 功能豐富:平臺實現(xiàn)了自然語言處理常用基本模塊,能夠靈活方便實現(xiàn)業(yè)務(wù)挖掘場景;
  • 分布式計算:文本挖掘模塊基于Spark集群框架實現(xiàn),能夠?qū)Υ笈课谋緮?shù)據(jù)進行高效處理運算;
  • 有機集成:文本挖掘模塊可以和平臺機器學(xué)習(xí)、統(tǒng)計分析、可視化分析等模塊進行無縫對接;
服務(wù)熱線
400-608-2558
咨詢熱線
15502965860
美林?jǐn)?shù)據(jù)
微信掃描二維碼,立即在線咨詢