Tempo數(shù)據(jù)挖掘平臺(tái)是對(duì)數(shù)據(jù)的深度探索,發(fā)掘數(shù)據(jù)價(jià)值:圖形化拖曳式的數(shù)據(jù)挖掘建模工具,開箱即用的內(nèi)置機(jī)器學(xué)習(xí)算法,讓業(yè)務(wù)人員快速進(jìn)行數(shù)據(jù)模型構(gòu)建與優(yōu)化,完成數(shù)據(jù)深層次價(jià)值的探索與挖掘。更多詳細(xì)介紹盡在網(wǎng)站內(nèi)部,今天我們著重給大家介紹其中文本挖掘之信息抽取。

1、信息抽取
信息抽取的定義為:從自然語(yǔ)言文本中抽取指定類型的實(shí)體、關(guān)系、事件等事實(shí)信息,并形成結(jié)構(gòu)化數(shù)據(jù)輸出的文本處理技術(shù)。
信息抽取有許多不同的用途,一種典型的應(yīng)用是使用信息抽取面向特定任務(wù)的結(jié)構(gòu)化信息,互聯(lián)網(wǎng)的快速發(fā)展產(chǎn)生了海量的信息,由于文本數(shù)據(jù)的多樣性和異構(gòu)性,對(duì)這些的信息進(jìn)行檢索和處理受到很大的限制,而信息抽取則致力于將這些信息轉(zhuǎn)化成結(jié)構(gòu)化的數(shù)據(jù),滿足搜索引擎和數(shù)據(jù)挖掘等相關(guān)應(yīng)用。另一種典型的應(yīng)用是特定目標(biāo)信息的發(fā)現(xiàn)和識(shí)別(如發(fā)現(xiàn)與“人工智能”相關(guān)的新聞)。在現(xiàn)在的Web中,相關(guān)的信息往往被無(wú)關(guān)的信息的淹沒(méi),而信息抽取技術(shù)可以發(fā)現(xiàn)并整理蘊(yùn)含在海量信息中的特定目標(biāo)信息,為正確決策提供大量的相關(guān)情報(bào),大大降低需要的人工成本。
2、算法原理
語(yǔ)言的表述通常具有規(guī)律性,對(duì)于相似意圖的描述一般會(huì)有固定的表達(dá)模式,對(duì)這些固定表達(dá)模式進(jìn)行泛化即可抽象出語(yǔ)言表述對(duì)應(yīng)的模板。如我們常說(shuō)“我 吃 蘋果”和“我 吃 梨”,那么通過(guò)泛化表述語(yǔ)句中的不同部分,就可以抽象出相應(yīng)的語(yǔ)言表述模板“我 吃 [FOOD]”,其中[FOOD]稱為泛化槽位,即在槽位中填上其他的詞(如“西瓜”),就可以生成新的語(yǔ)句“我 吃 西瓜”。很顯然,槽位的填充是要滿足一定約束的,如[FOOD]槽位應(yīng)該填充食物相關(guān)的詞才是符合語(yǔ)義的,這些約束就是所謂的規(guī)則。
規(guī)則模板引擎我們期望實(shí)現(xiàn)的是簡(jiǎn)單匹配, 所以我們對(duì)于文法的設(shè)計(jì)盡可能的簡(jiǎn)化,定義模板的元字符為四類:泛化槽位、固定詞、通配符、注冊(cè)函數(shù)。例如我們構(gòu)造了一個(gè)識(shí)別建筑物地址的模板:
[D:ner_street][F:num]號(hào)[W:1-6][D:building]
很顯然,構(gòu)造該模板如圖1是基于如下的先驗(yàn)知識(shí)進(jìn)行的:我們經(jīng)常有“長(zhǎng)安路26號(hào)宏遠(yuǎn)大廈”這樣的表述,所以“長(zhǎng)安路”可以被泛化為槽位,以便其他街道的名稱也能適用,同理“大廈”被歸集到[D:building]的槽位詞典中;至于多少號(hào)的數(shù)字可以通過(guò)數(shù)字識(shí)別的注冊(cè)函數(shù)實(shí)現(xiàn);而大廈的名稱比較多樣化,索性就用通配符匹配“大廈”前面的1-6個(gè)字節(jié)實(shí)現(xiàn)。

圖1 模板Trie樹匹配示例
3、利用Tempo數(shù)據(jù)挖掘平臺(tái)實(shí)現(xiàn)信息抽取
Tempo文本挖掘算法模塊提供了豐富的文本挖掘功能節(jié)點(diǎn),能夠覆蓋整個(gè)文本挖掘的生命周期,它在兼顧專業(yè)性的同時(shí)保持非常友好的易用性。Tempo友好的圖形化操作界面,使用鼠標(biāo)即可完成數(shù)據(jù)挖掘全過(guò)程;便捷的參數(shù)設(shè)置窗口,使模型的構(gòu)建更加靈活;自定義詞典、配置文件均為明文,可滿足不同業(yè)務(wù)場(chǎng)景的個(gè)性化需求。
金融機(jī)構(gòu)向客戶發(fā)送的短信是文本形式的,需要從這些文本短信中分析出用戶是否出現(xiàn)逾期記錄,逾期行為的具體信息,如逾期時(shí)間、逾期金額、借款機(jī)構(gòu)等。以金融信貸短信的信息抽取為例子,我們講如何利用Tempo信息抽取節(jié)點(diǎn)從金融信貸短信中抽取出逾期金額、時(shí)間、借款機(jī)構(gòu)等結(jié)構(gòu)化信息點(diǎn)。抽取過(guò)程可分為下面三部分:

圖2 信息抽取流程
第一步,數(shù)據(jù)準(zhǔn)備
在使用信息抽取算法時(shí),需要將短信文本整理為Tempo可讀取的文件格式,關(guān)系數(shù)據(jù)庫(kù)表或者txt、 csv等文本文件。我們整理的數(shù)據(jù)格式如下表:
id | 短信文本 |
1 | 【華嚴(yán)法務(wù)】尊敬的客戶,您在閃電平臺(tái)借款截止2016年07月28日逾期共計(jì)1000元。若您還款困難,請(qǐng)立即聯(lián)系客服為您協(xié)調(diào)解決?;貜?fù)TD退訂。 |
2 | 【信而富】尊敬的客戶,您的借款已逾期,需還款520.50元。請(qǐng)前往微信公眾號(hào)“信而富現(xiàn)金貸”還款,避免產(chǎn)生更多延遲還款服務(wù)費(fèi)及不良的信用影響。點(diǎn)滴信用,成就未來(lái)! |
3 | 【靠譜鳥】尊敬的客戶,您在更美貸借款1000逾期未還,我司將上報(bào)全國(guó)誠(chéng)信系統(tǒng)并起訴至法院,請(qǐng)轉(zhuǎn)告盡快還款電話4008986985,回復(fù)TD退訂 |
… | … |
第二步:構(gòu)建信息抽取模型
這一步是最重要的一步,打開信息抽取節(jié)點(diǎn),配置模版文件、槽位文件、可略詞文件。我們的目的是抽取,日期、逾期金額、貸款機(jī)構(gòu)。

圖3信息抽取節(jié)點(diǎn)參數(shù)界面
分別點(diǎn)擊下載模版文件、槽位文件、可略詞文件。下載完成后本地會(huì)出現(xiàn)三個(gè)txt文件,以第一條短信為例,我們看一下如何配置這三個(gè)文件,第一條的文本短信內(nèi)容為:“【華嚴(yán)法務(wù)】尊敬的客戶,您在閃電平臺(tái)借款截止2016年07月28日逾期共計(jì)1000元。若您還款困難,請(qǐng)立即聯(lián)系客服為您協(xié)調(diào)解決?;貜?fù)TD退訂。”,目的是抽取日期,逾期金額,貸款機(jī)構(gòu)。因?yàn)橥唤鹑跈C(jī)構(gòu)發(fā)送的短信信息格式相對(duì)固定,通過(guò)模板基于元字符匹配并提取文本中的可變字符,以上短信中紅字部分均為可變字符,這些可變字符正好對(duì)應(yīng)我們想要抽取的貸款機(jī)構(gòu),逾期金額和日期。首先我們抽取貸款機(jī)構(gòu),短信中貸款機(jī)構(gòu)出現(xiàn)的上下文為“在XXXX借款”,因?yàn)槲覀儫o(wú)法判定用戶在什么平臺(tái)上借款,所以匹配“閃電平臺(tái)”用任意字符匹配,我們就可以使用匹配出閃電平臺(tái),接著通過(guò)內(nèi)置的注冊(cè)函數(shù)匹配日期。最后我們匹配逾期金額,逾期金額出現(xiàn)的上下文為“逾期共計(jì)1000元”我們的目的是把“1000”抽取出來(lái),逾期金額一般為數(shù)字,因此用[F:num]匹配數(shù)字,一般只有在“元”,或者“塊”,“美元”等詞前面出現(xiàn)的數(shù)字才為金額。所以在[F:num]后增加槽位。應(yīng)此最終的匹配模板為:“【】在借款截止逾期共計(jì) 機(jī)構(gòu)_6,還款日期_8:date,金額_10:double”。模板信息主要包含兩部分內(nèi)容,其中“【】在借款截止逾期共計(jì)”為規(guī)則模板,“機(jī)構(gòu)_6,還款日期_8:date,金額_10:double”為抽取的結(jié)構(gòu)化信息,兩個(gè)字符串以Tab鍵間隔。“機(jī)構(gòu)_6”表示抽取的信息字段名為“機(jī)構(gòu)”值在第6個(gè)槽位,槽位索引從1開始,一個(gè)元字符代表一個(gè)槽位。“還款日期_8”表示抽取的信息字段名為“還款日期”值在第8個(gè)槽位,“date”表示輸出類型為日期型;“金額_10”表示抽取的信息字段名“金額”值在第10個(gè)槽位,“double”表示輸出的金額格式為double類型。以上短信文件信息抽取最終的規(guī)則模板文件為:
規(guī)則模板文件 |
【 【 【 |
槽位詞典文件為:
槽位詞典文件 | |
還款 還錢 元 塊 美元 歐元 已 已在 已經(jīng) |
|
可忽略詞文件為:
可忽略詞文件 | |
的 了 |
|
將這三個(gè)文件分別上傳到對(duì)應(yīng)為目錄下。算法在校驗(yàn)規(guī)則模版文件、槽位文件、可略詞文件合法完成后會(huì)根據(jù)以上文件構(gòu)建規(guī)則模版樹和槽位樹,把構(gòu)造的對(duì)象分發(fā)到分布式節(jié)點(diǎn)上供各節(jié)點(diǎn)對(duì)文本分布式信息抽取。

圖4文本信息抽取流程圖
第三步:開始信息抽取
信息抽取是基于Spark集群中的RDD數(shù)據(jù)實(shí)現(xiàn)文本信息抽取,基于RDD分布式遍歷每一條文本,通過(guò)分發(fā)到各節(jié)點(diǎn)的信息抽取模型實(shí)現(xiàn)對(duì)文本信息抽取的原子操作。抽取結(jié)果如下圖
信息抽取是基于Spark集群中的RDD數(shù)據(jù)實(shí)現(xiàn)文本信息抽取,基于RDD分布式遍歷每一條文本,通過(guò)分發(fā)到各節(jié)點(diǎn)的信息抽取模型實(shí)現(xiàn)對(duì)文本信息抽取的原子操作。抽取結(jié)果如下圖

圖5文本信息抽取結(jié)果表
以上是美林?jǐn)?shù)據(jù)小編對(duì)基于Tempo數(shù)據(jù)挖掘工具的文本挖掘中信息抽取的詳細(xì)介紹,想要了解更多Tempo數(shù)據(jù)挖掘平臺(tái)功能的小伙伴,歡迎您來(lái)電咨詢或試用我們的產(chǎn)品,我們將竭誠(chéng)為您服務(wù)!