欧美40老熟妇色xxxxx,免费+国产+在线观看,末成年女a∨片一区二区,久久伊人色av天堂九九,免费中文熟妇在线影片

美林?jǐn)?shù)據(jù)
ABOUT US
美林?jǐn)?shù)據(jù)技術(shù)股份有限公司(簡稱:美林?jǐn)?shù)據(jù),NEEQ:831546)是國內(nèi)知名的數(shù)據(jù)治理和數(shù)據(jù)分析服務(wù)提供商。

美林?jǐn)?shù)據(jù)技術(shù)專家團隊|智能問答技術(shù)及其應(yīng)用、批注、修訂、圖源標(biāo)注

2021-12-16 10:29:00
自Turing于1950年在其經(jīng)典論文中提出“圖靈測試”以來,問答機器人的發(fā)展藍(lán)圖和目標(biāo)便得以明確。而作為問答機器人的核心,智能問答技術(shù)的發(fā)展一直備受人們關(guān)注。
早期的智能問答技術(shù)主要基于問答庫中維護的模板,然后采用模糊匹配的方式給出問題的答案,對語義分析和用戶意圖理解的程度還不深。近年來,隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,智能問答技術(shù)也取得了長足的進步,并在諸如搜索、智能客服、智能家居等領(lǐng)域落地應(yīng)用,且取得了不錯的效果。
本文首先簡要介紹當(dāng)前智能問答的技術(shù)架構(gòu),然后重點對其中涉及到的關(guān)鍵技術(shù)、適用場景與優(yōu)缺點進行分析。
一、智能問答技術(shù)架構(gòu)
智能問答,其核心任務(wù)是構(gòu)建一個模型,對輸入的問句進行理解并給出問題的答案。一般來說,可以將問答作為搜索的一個特例——其提供了一種更為精準(zhǔn)(只有一個結(jié)果)的搜索服務(wù),因此,本文中提到的搜索,都是指包含了問答的搜索。為了提升模型的準(zhǔn)確性和智能性,有時也會根據(jù)輸入來推薦可能的問題。其技術(shù)架構(gòu)可以簡單示意如下:
智能問答
自動問答架構(gòu)
問題理解
模型接收到用戶的輸入后,需要對其進行判斷與理解,例如,判斷該輸入是不是一個問題,該問題屬于哪一個領(lǐng)域,該問題中的實體有哪些,需要填充的槽位有哪些,問題的類型是什么,問題是否明確等。對于意圖不明確的問題,有時需要用到多輪對話技術(shù)對意圖進行澄清。
問題解答
在理解問題后,需要從模型所連接的知識庫和文檔庫獲取答案,所采取的技術(shù)方案根據(jù)答案來源的不同而不同,本文后續(xù)內(nèi)容重點對這部分技術(shù)進行介紹。
搜索推薦
根據(jù)輸入,模型為用戶推薦相似的搜索內(nèi)容,其主要體現(xiàn)在兩個方面,一是在用戶輸入的過程中根據(jù)已輸入的內(nèi)容聯(lián)想其可能輸入的內(nèi)容,二是在搜索結(jié)束后,根據(jù)搜索的內(nèi)容推薦相似的搜索。
二、兩類典型的問答模型
1、Document QA:基于文檔的閱讀理解式自動問答
Document QA的核心任務(wù)為:給定一篇文檔和與之有關(guān)的問題,模型自動找到該問題的答案。Document QA中最具代表性的片段式提?。⊿pan-extraction),即從給定的文章中提取一段連續(xù)的字符串作為問題的答案。這種方式一般借助于機器閱讀理解(Machine Reading Comprehension, MRC)技術(shù),因此,有時也被稱為基于閱讀理解的自動問答。
目前,取得SOTA的MRC均采用預(yù)訓(xùn)練模型,如BERT、ERNIE-Gram等,它們大都通過Transformer加注意力機制等方式來獲得文檔與問題的向量表示,再通過邊界預(yù)測的方式來確定答案片段的起止位置。
然而,在實際的問答系統(tǒng)中,往往無法要求用戶在輸入問題的時候同時輸入一篇包含該答案的文檔。較為合理的做法是,事先維護一個文檔數(shù)據(jù)庫,然后根據(jù)用戶的提問,從文檔庫中找到該問題的答案。
要實現(xiàn)上述想法,一般有兩種做法:一種是根據(jù)用戶輸入的問題,先找到最相關(guān)的一篇文檔,再對該文檔應(yīng)用MRC模型,獲取答案。這種做法對篩選最相關(guān)文檔的算法要求比較高,如果選擇錯誤,那么基本上無法得到正確答案。
為了緩解上述弊端,另一種做法是找到一批(比如,10篇)文檔作為候選文檔,再逐文檔應(yīng)用MRC模型,最后對獲取得到的候選答案進行評分,選擇分?jǐn)?shù)最高的作為最終答案。
綜上,一個Document QA模型的整體架構(gòu)可以分為三層:文檔提?。≧etriever)、答案提取(Reader)、答案排序(Ranker)。
Document QA架構(gòu)
Document QA架構(gòu)
(如果采用的是做法1,則在Retriever階段只保留一篇文檔,取消Ranker模塊。)

Retriever
給定用戶輸入的query,采用算法(如tf-idf)從documents中篩選出topN最相關(guān)的文檔。此過程實際上就是傳統(tǒng)搜索引擎的計算過程,即計算query與各document相似度的過程,因此,也可以利用tf-idf算法來快速實現(xiàn)。
Reader
此階段采用MRC模型對輸入的query和document進行計算,并從document中找到連續(xù)的字符串作為答案。例如基于BERT的MRC模型結(jié)構(gòu)如下:
基于BERT的MRC模型
基于BERT的MRC模型
首先將query和document連接起來作為輸入,經(jīng)過BERT模型計算后,得到document中每個詞作為答案起始位置的概率、 作為答案結(jié)束位置的概率,根據(jù)概率大小得到候選答案在document中的起止位置Start和End,候選答案的得分一般由起止位置概率的乘積得到。
Ranker
通過上一步,可以分別從topN相關(guān)文檔中得到對應(yīng)的N個候選答案和得分,在這一階段將答案按照得分從高到底排序,返回得分最高的作為最終答案。
Answer packaging
上述三步實際上已經(jīng)完成了Document QA的主要功能,但在某些條件下該答案過于簡略,而且沒有對回答不出來的問題做處理。對于未抽取到答案的情況,可以根據(jù)具體要求輸出“未查詢到答案”、“超出知識庫范圍”、或其它約定好的內(nèi)容;對于特定類型問題,可以用問題和答案的組合進行包裝,使其顯得更加智能,例如:問題“呼和浩特到北戴河多少公里”,模型抽取到的答案是“約763.0公里”,這里可以將答案包裝成“呼和浩特到北戴河763公里”。
Document QA相較于傳統(tǒng)的通過維護問答對實現(xiàn)自動問答的方案,一個顯著的優(yōu)點就是不需要人工維護問答對和意圖模板,但在實際應(yīng)用中,Document QA還存在一些短板待完善:
Document QA的計算過程是一個典型的“黑盒“,人們無法分析其得到答案的具體計算是如何進行的。
由于答案只能從原文截取,因此無法回答一些復(fù)雜的推理類問題,例如,給定一篇介紹姚明的文章,盡管文中出現(xiàn)“姚明出生于上海“之類的信息,但模型可能仍無法回答諸如”姚明的國籍是什么“的問題。
Retriever算法的效果直接影響后續(xù)答案的提取,特別是在針對某些特殊領(lǐng)域開發(fā)問答模型時,需要投入非常多的精力來使模型學(xué)習(xí)到該領(lǐng)域的語言特點。
需要標(biāo)注一定規(guī)模的document-query-answer語料來訓(xùn)練Reader模型。
2、KBQA基于知識庫的自動問答
KBQA,即Knowledge Base Question Answering,基于知識庫的自動問答(本文不區(qū)分知識庫與知識圖譜的概念,認(rèn)為它們的含義相同),它的核心任務(wù),是將以自然語言描述的問題轉(zhuǎn)化為可執(zhí)行的結(jié)構(gòu)化查詢語言(NQL),執(zhí)行該查詢語句,得到問題的答案。根據(jù)存儲知識庫的數(shù)據(jù)庫種類不同,查詢語言一般有SPARQL、Cypher等。由于答案來源是質(zhì)量較高的結(jié)構(gòu)化知識,因此其最顯著的優(yōu)勢,就是可以深入“理解“用戶的問題,并支持更多復(fù)雜的推理。
比較流行的KBQA方案有兩種,一是基于語義解析的方法,一種是基于搜索排序的方法。基于語義解析的方法的核心過程就是先將自然語言問題轉(zhuǎn)化為語義表示,然后再將語義表示轉(zhuǎn)化為可執(zhí)行的查詢語言,這種方法的優(yōu)勢之一,就是可解釋性強,能夠展示獲取答案的全過程。基于搜索排序的方法首先根據(jù)自然語言問題獲取知識庫中相關(guān)的實體,然后獲取與該實體有一步或多步關(guān)系的實體,并將其視為子圖提取出來作為候選答案集合,最后對候選實體進行匹配和排序,選擇最終答案。
? 語義解析的方法
語義解析的一個典型任務(wù)是給定一張表格,用戶用自然語言提出問題,模型自動生成相應(yīng)SQL查詢邏輯,然后在表格中執(zhí)行查詢得到答案。
語義解析方法
用戶輸入問題:“新浪和人人網(wǎng)的周漲跌幅分別是多少?”
模型會根據(jù)數(shù)據(jù)表格的內(nèi)容,將該問題轉(zhuǎn)化成sql語句:“select 周漲跌幅 from 表_1 where 名稱=‘新浪’ or 名稱=‘人人網(wǎng)’”
這樣就可以從表中得到查詢結(jié)果:“-4.52 和 -9.55”
語義解析的方法可以分為基于訓(xùn)練數(shù)據(jù)的有監(jiān)督方法和基于規(guī)則的無監(jiān)督方法兩類。
基于訓(xùn)練數(shù)據(jù)的有監(jiān)督方法需要事先準(zhǔn)備標(biāo)注的數(shù)據(jù)用于訓(xùn)練,在KBQA這個任務(wù)里,標(biāo)注數(shù)據(jù)的格式為:,其中,query就是自然語言問句,nql是結(jié)構(gòu)化的查詢語句。這實際上也是NLP技術(shù)中的一個研究方向,叫作text2sql。在深度學(xué)習(xí)的背景下,text2sql一些效果比較好的解決方案大都采用基于「編碼器-解碼器」結(jié)構(gòu)的seq2seq的方法,目前,相關(guān)的研究方向主要聚焦于以下幾個方面:研究更強的語義表示(BERT)和結(jié)構(gòu)來增強Encoder端對語義信息的利用程度;研究不同的解碼方式(樹形結(jié)構(gòu)解碼、填槽類解碼)來減小解空間的搜索范圍;研究提高SQL(或者其他結(jié)構(gòu)化查詢語句)語言的抽象性的技術(shù);研究利用搜索、重排技術(shù)等對多條候選結(jié)果進行正確答案的篩選。對text2sql模型進行評價的方法主要有兩種:一種是精確匹配率,指的是生成的SQL與正確的SQL在select、where、from等模塊達到字符串級別的完全匹配的比例;另一種是執(zhí)行正確率,指的是生成的SQL能夠在數(shù)據(jù)庫執(zhí)行并返回正確的答案的比例。
基于規(guī)則的無監(jiān)督方法的典型過程包括以下步驟:
(1)問句分析:
把自然語言問句轉(zhuǎn)化成查詢語義三元組的形式;
(2)資源映射:
將三元組中的每個短語,確定其在知識庫中的對應(yīng)資源;
(3)查詢語句的生成:
對不同類型的問題依據(jù)不同的模板生成對應(yīng)的查詢語句。
? 搜索排序的方法
知識圖譜是以實體為節(jié)點的網(wǎng)絡(luò),一般處理與實體相關(guān)的事實內(nèi)容,比如答案為人名、機構(gòu)名、地名的問題,這種類型的問答任務(wù)稱為事實型問答,在問句中都包含至少一個實體詞,問題所涉及的知識也就是該詞對應(yīng)實體的事實,那么答案就是這些事實中的實體。
例如用戶輸入問題:“姚明的妻子是誰?”該問題的核心實體是“姚明”,從知識圖譜中查詢到實體“姚明”,并將該實體相關(guān)聯(lián)的實體提取出來作為候選答案。
知識圖譜
在本例中與實體“姚明”相關(guān)聯(lián)的實體及其關(guān)系為:
“姚明”--“國籍”-->“中國”
“姚明”--“配偶”-->“葉莉”
“姚明”--“出生地”-->“上海”
再通過計算每個相關(guān)聯(lián)實體與問題匹配程度,會得到與問題最匹配的答案是“姚明”--“配偶”-->“葉莉”,輸出答案“葉莉”。
基于搜索排序的知識問答就類似于人工回答的過程:首先,確定問句中的主題詞;然后,根據(jù)主題詞鏈接到知識庫中的實體,得到主題實體;其次,將主題實體以及知識庫中與主題實體相關(guān)的實體提取出來作為候選答案;最后,從候選答案中選擇出正確的答案。
找到主題詞并找到知識庫中與之對應(yīng)的實體,是實體識別與實體鏈接的任務(wù),這里主要介紹如何從問句和答案中提取特征,并對它們的匹配程度進行計算。
從問句中提取特征首先需要對問句進行句法分析,得到其依存句法樹?;谝来婢浞洌梢赃M一步抽象得到許多有用的信息,主要包括:
(1)問題詞:
         例如,誰,哪,什么等;
(2)問句焦點詞:
        這個詞暗示了答案的類型;
        例如:名字,時間,地點等;
(3)主題詞:
       用于幫助找到知識庫中相關(guān)的知識點;
(4)中心動詞
作為候選答案的知識庫中的節(jié)點,都可以抽取出以下特征:節(jié)點的所有關(guān)系;節(jié)點的所有屬性及屬性值;節(jié)點與主題實體的路徑。
在提取了問句和候選答案的特征之后,接下來就是對其進行匹配。為此,可以將問句中的特征和候選答案的特征進行組合,并將關(guān)聯(lián)度較高的問題-候選答案賦予較高的權(quán)重。這種賦權(quán)過程可以通過機器學(xué)習(xí)模型來實現(xiàn),具體地,將從候選答案中選出正確答案視為一個二分類問題,從而可以使用<問題-答案>的標(biāo)注數(shù)據(jù)來訓(xùn)練一個分類模型。
三、總結(jié)
本文主要介紹了兩類常用的自動問答技術(shù)的實現(xiàn)原理,縱觀整個自動問答的研究成果和技術(shù)現(xiàn)狀,仍需要對以下問題進行深入研究:
計算機能夠直接處理的只有數(shù)字,如何把自然語言包含的語義信息準(zhǔn)確、無遺漏地映射成數(shù)字,是所有NLP任務(wù)面臨的挑戰(zhàn)。盡管基于預(yù)訓(xùn)練模型的方法橫掃了各大NLP任務(wù)的榜單,但是在自動問答的任務(wù)上,此方法衍生出的模型所取得的效果仍然無法令人滿意。這類方法試圖通過龐大的參數(shù)和復(fù)雜的結(jié)構(gòu)來對自然語言問句進行解析、推理、查詢和回答,隨著問句復(fù)雜程度的提升,該方法的推理能力會顯著地降低,從而導(dǎo)致回答錯誤或無法回答;此外,正如所有NLP任務(wù)所面臨的挑戰(zhàn)一樣,對跨領(lǐng)域的模型進行二次訓(xùn)練所消耗的高額資源是阻礙其大規(guī)模應(yīng)用的重要原因。
KBQA由于有高質(zhì)量的知識庫作為底層支撐,往往具有較好表現(xiàn)效果。但是,拋開維護知識庫所需要投入的巨大資源之外,如何正確解析問句、從大規(guī)模的知識庫中快速定位到關(guān)鍵實體并根據(jù)關(guān)鍵實體找到對應(yīng)的屬性(關(guān)系)作為答案,對于數(shù)據(jù)結(jié)構(gòu)、硬件資源以及解析模型的要求仍是非常高的。

服務(wù)熱線
400-608-2558
咨詢熱線
15502965860
美林?jǐn)?shù)據(jù)
微信掃描二維碼,立即在線咨詢