欧美40老熟妇色xxxxx,免费+国产+在线观看,末成年女a∨片一区二区,久久伊人色av天堂九九,免费中文熟妇在线影片

美林?jǐn)?shù)據(jù)
ABOUT US
美林?jǐn)?shù)據(jù)技術(shù)股份有限公司(簡稱:美林?jǐn)?shù)據(jù),NEEQ:831546)是國內(nèi)知名的數(shù)據(jù)治理和數(shù)據(jù)分析服務(wù)提供商。

美林?jǐn)?shù)據(jù)技術(shù)專家團(tuán)隊(duì) | 集團(tuán)系統(tǒng)數(shù)據(jù)檢索中相關(guān)內(nèi)容推薦的應(yīng)用

2021-08-17 09:20:00
某集團(tuán)公司通過近幾年的信息化建設(shè),已經(jīng)基本完成了信息化的全業(yè)務(wù)覆蓋,初步實(shí)現(xiàn)了數(shù)據(jù)的集中存儲(chǔ),數(shù)據(jù)存儲(chǔ)總量40T,數(shù)據(jù)條數(shù)增長量1494萬/月,數(shù)據(jù)存儲(chǔ)增長1T/月,其中有30%的數(shù)據(jù)是以文件的形式存儲(chǔ)。
文件作為業(yè)務(wù)活動(dòng)的過程記錄和結(jié)果沉淀,對(duì)于業(yè)務(wù)流程貫通、業(yè)務(wù)知識(shí)沉淀,具有非常重要的意義。該集團(tuán)公司的數(shù)據(jù)雖然已經(jīng)實(shí)現(xiàn)集中存儲(chǔ),但是數(shù)據(jù)仍然按業(yè)務(wù)條線、按系統(tǒng)方式存儲(chǔ)、管理、利用,且文件數(shù)據(jù)具有非結(jié)構(gòu)化的特點(diǎn),因此對(duì)于文件數(shù)據(jù)的利用效率很低。具體體現(xiàn)在:
01、集中管理后的價(jià)值充分展現(xiàn),業(yè)務(wù)流轉(zhuǎn)過程中跨業(yè)務(wù)的數(shù)據(jù)獲取難。
02、缺乏對(duì)現(xiàn)有非結(jié)構(gòu)化文件數(shù)據(jù)的管理和檢索,導(dǎo)致了“人找數(shù)據(jù)難”的局面。
03、雖然已經(jīng)有了海量的文件數(shù)據(jù),但這些數(shù)據(jù)并未形成知識(shí)加以沉淀。


數(shù)據(jù)分析

面對(duì)目前存在的問題,通過公司領(lǐng)導(dǎo)層的協(xié)調(diào)推動(dòng),梳理了各業(yè)務(wù)部門的具體業(yè)務(wù)數(shù)據(jù)和業(yè)務(wù)需求,設(shè)計(jì)了非結(jié)構(gòu)化文檔一體化管理平臺(tái),在平臺(tái)實(shí)現(xiàn)過程中,通過自然語言處理、機(jī)器學(xué)習(xí)、人工智能等技術(shù),對(duì)用戶獲取文件數(shù)據(jù)的檢索、瀏覽過程進(jìn)行分析,向用戶主動(dòng)推送相關(guān)內(nèi)容,將“人找數(shù)據(jù)”轉(zhuǎn)化為“數(shù)據(jù)找人”。

一、業(yè)務(wù)需求和問題定義
1 相關(guān)搜索
當(dāng)用戶在搜索框中輸入檢索內(nèi)容時(shí),在右側(cè)推薦與檢索內(nèi)容相關(guān)的關(guān)鍵詞,并在推薦查詢欄給出相關(guān)的查詢結(jié)果。

相關(guān)搜索
2 相關(guān)文檔
當(dāng)用戶瀏覽文檔時(shí),根據(jù)當(dāng)前文檔內(nèi)容,在右側(cè)推薦內(nèi)容相關(guān)的文檔。

相關(guān)文檔

三、搜索引擎與推薦系統(tǒng)
從信息獲取的角度來看,搜索和推薦是用戶獲取信息的兩種主要手段。
搜索是用戶主動(dòng)獲取信息的行為,用戶根據(jù)將自己的訴求用詞語、短語、句子的形式表達(dá)出來,輸入到搜索引擎中獲取檢索結(jié)果,用戶通過瀏覽和點(diǎn)擊檢索結(jié)果來判斷訴求是否得到滿足??梢钥闯?,在應(yīng)用搜索時(shí),用戶的需求是比較明確的。
推薦是用戶被動(dòng)接收信息的行為,推薦系統(tǒng)根據(jù)收集的用戶行為特征,結(jié)合歷史積累的數(shù)據(jù),采用某種算法得到用戶可能感興趣的信息,并發(fā)送給用戶。因此,推薦對(duì)應(yīng)的是用戶模糊而不明確的需求。
目前主流的搜索引擎仍然是以文字構(gòu)成查詢?cè)~query,因?yàn)槲淖质敲枋鲂枨笞詈啙?、最直接的方式,搜索引擎抓取和索引的絕大部分內(nèi)容也是以文字方式組織的,在大多數(shù)搜索查詢中,用戶都是使用較短的query,一個(gè)query一般不會(huì)超過5個(gè)元素,通過搜索查詢很難描述用戶復(fù)雜的、潛在需求。
例如“公司最近下發(fā)的、與我日常工作相關(guān)的文件有哪些?”,“我正在瀏覽的文件相關(guān)的文件中,有哪些大家比較關(guān)注?”
幾乎沒有用戶愿意輸入這么多字來找結(jié)果,同時(shí)搜索引擎對(duì)語義的理解目前還無法做到足夠深入。因此,這類復(fù)雜的、潛在的需求無法通過搜索引擎得到滿意的查詢結(jié)果。所以在滿足這些需求的時(shí)候,通過推薦系統(tǒng)設(shè)置的功能(如:相關(guān)推薦、猜你喜歡、瀏覽過該信息的人還在關(guān)注),加上與用戶的交互(篩選、排序、點(diǎn)擊),不斷積累和挖掘用戶偏好,可以將這些難以用文字表達(dá)的需求良好的滿足起來。
在搜索引擎中加入推薦系統(tǒng),有多種方式,簡單的做法可以基于查詢query和相關(guān)query,結(jié)合歷史的query和文檔的關(guān)聯(lián)數(shù)據(jù),使用基于規(guī)則和基于內(nèi)容相結(jié)合的方法進(jìn)行推薦,這種方法就可以滿足一般的需求。

三、常用的推薦方法及算法
1 基于機(jī)器學(xué)習(xí)的方法

采用特征工程,提取和衍生出推薦信息(物)的各類特征,同時(shí)也提取和衍生出推薦對(duì)象(人)的各類特征,應(yīng)用機(jī)器學(xué)習(xí)算法,訓(xùn)練出推薦模型。
比如要推薦書籍,對(duì)書籍本身可以按照類型分(文藝、科學(xué)、科幻、小說……),按照長短分(短篇、中篇、長篇……),按照文字圖片比分(圖為主、文字為主……)等等;而用戶按照性別、年齡、所在城市等屬性劃分。
這種方法的優(yōu)點(diǎn)是方案簡單穩(wěn)定,缺點(diǎn)是每一個(gè)新用戶/物品出現(xiàn)的時(shí)候都要對(duì)其進(jìn)行貼標(biāo)簽(tagging),然后對(duì)于新的屬性無能為力,需要人為干預(yù)改進(jìn)。
2 基于內(nèi)容相似的方法
基于內(nèi)容相似的推薦,是根據(jù)用戶過去關(guān)注的內(nèi)容(content),為用戶推薦和他過去關(guān)注的內(nèi)容相似的內(nèi)容。例如,一個(gè)推薦書籍的系統(tǒng)可以依據(jù)某個(gè)用戶之前喜歡很多的計(jì)算機(jī)相關(guān)的書籍而為他推薦《機(jī)器學(xué)習(xí)導(dǎo)論》。
基于內(nèi)容相似的推薦一般包括以下三步:
(1)Content Representation
為每個(gè)content抽取出一些特征來表示此content。
(2)Profile Learning
利用一個(gè)用戶過去關(guān)注(及取消關(guān)注)的content的特征數(shù)據(jù),來學(xué)習(xí)出此用戶的偏好特征(profile)。
(3)Recommendation Generation
通過比較上一步得到的用戶profile與候選content的特征,為此用戶推薦一組相關(guān)性最大的content。
3 基于協(xié)同過濾的方法
根據(jù)用戶對(duì)目標(biāo)信息的喜好程度,找到和目標(biāo)用戶相似的用戶,然后將待推薦的信息打分,打分的權(quán)重根據(jù)與目標(biāo)用戶愛好類似的用戶的相關(guān)度給出,常見的做法是將用戶和信息之間的interaction做成一個(gè)矩陣,然后利用矩陣分解(SVD, LatentFactor)得出用戶的特征矩陣和信息的特征矩陣。
協(xié)同過濾現(xiàn)在是推薦系統(tǒng)比較主流的方法,Yahoo、豆瓣等網(wǎng)站就是采用這種方法。由于是基于用戶的推薦,所以對(duì)于熱門的信息,推薦效果往往比基于內(nèi)容相似的方法好很多,然而如果用戶不足,或者信息很冷門,效果就不太好,也就是說對(duì)新加入或小眾的信息和用戶不能很好的處理。
四、技術(shù)實(shí)現(xiàn)
考慮到本系統(tǒng)應(yīng)用于集團(tuán)企業(yè)內(nèi)部,使用的用戶數(shù)有限,不適宜采用基于用戶相似的協(xié)同過濾。因此在技術(shù)實(shí)現(xiàn)上,以基于內(nèi)容相似的推薦方法為主要框架,結(jié)合bert語義表達(dá)、文本相似算法、余弦夾角算法,實(shí)現(xiàn)相關(guān)搜索詞、相關(guān)文檔推薦等功能。
1 相關(guān)搜索詞推薦
整體框架是構(gòu)建相關(guān)搜索詞模型,計(jì)算歷史搜索詞之間的相關(guān)性,并將搜索詞與最相關(guān)的N個(gè)詞存入ES的相關(guān)詞索引中,當(dāng)用戶發(fā)起檢索時(shí),從相關(guān)詞索引中找到對(duì)應(yīng)的相關(guān)詞展示出來。

相關(guān)搜索詞推薦

(1)相關(guān)搜索詞的生成
相關(guān)搜索詞模型每日定時(shí)運(yùn)行,計(jì)算當(dāng)天新產(chǎn)生的搜索詞,并更新最近M條搜索詞的相關(guān)詞,計(jì)算結(jié)果保存在相關(guān)詞索引中。

相關(guān)搜索詞的生成

(2)相關(guān)搜索詞的實(shí)時(shí)展現(xiàn)
當(dāng)用戶發(fā)起搜索query時(shí),從相關(guān)詞索引中得到與query最相似的詞query*,將query*的相關(guān)詞返回展現(xiàn)在頁面上。

相關(guān)搜索詞的實(shí)時(shí)展現(xiàn)

(3)詞典維護(hù)
項(xiàng)目需要維護(hù)停用詞典、自定義詞典,用以優(yōu)化相關(guān)詞推薦的效果。
停用詞典可以過濾掉推薦結(jié)果中需要屏蔽的詞。
自定義詞典示例:將“大數(shù)據(jù)建模”放入自定義詞典中,當(dāng)用戶檢索“如何進(jìn)行大數(shù)據(jù)建模”時(shí),會(huì)將大數(shù)據(jù)建模這個(gè)自定義的關(guān)鍵詞增加到推薦結(jié)果中。
2 相關(guān)搜索結(jié)果推薦
將用戶檢索詞的相關(guān)搜索詞放入文檔索引中進(jìn)行檢索,從檢索結(jié)果排除掉當(dāng)前頁面展示的內(nèi)容后,展現(xiàn)在相關(guān)搜索結(jié)果中。

相關(guān)搜索結(jié)果推薦

3 相關(guān)文檔推薦
對(duì)于每一篇文檔,通過文檔向量模型生成文檔對(duì)應(yīng)的向量,并將向量作為附加內(nèi)容與文檔一一起存到搜索引擎中,定期計(jì)算文檔之間的相似度,將最相似的N個(gè)文檔作為相關(guān)文檔存到搜索引擎中,當(dāng)用戶瀏覽特定文檔時(shí),將該文檔的相關(guān)文檔列表展示出來。

相關(guān)文檔推薦

(1)文檔向量生成
每次新增文檔時(shí),調(diào)用文檔向量模型,獲取每篇文檔的向量,將文檔及文檔向量保存在搜引擎中。

文檔向量生成

(2)相關(guān)文檔計(jì)算
每天定時(shí)當(dāng)天新增的每一篇文檔執(zhí)行如下操作:
a.在搜索引擎中搜索該文檔title,獲取前N條得分最高的搜索結(jié)果
b.將該文檔和搜索得到的N個(gè)文檔放入相關(guān)文檔模型中,計(jì)算語義相似度和字面相似度,并進(jìn)行加權(quán)得到最終相似度矩陣,將前十個(gè)最相關(guān)的文檔保存到搜索引擎中。

相關(guān)文檔計(jì)算

(3)同義詞典
項(xiàng)目需要維護(hù)領(lǐng)域同義詞典,該詞典內(nèi)的詞在進(jìn)行相似度計(jì)算時(shí)起到權(quán)重加大的作用,詞典的結(jié)構(gòu)為[["x1","x2"],"x3",["x4","x5"]...],如果元素為列表,表示列表內(nèi)的元素是同義詞。

五、總結(jié)   
隨著集團(tuán)級(jí)企業(yè)的數(shù)據(jù)沉淀越來越多,高效、可靠的數(shù)據(jù)檢索可以大幅度提升數(shù)據(jù)的利用效率?;谝陨霞夹g(shù)方案,在構(gòu)建非結(jié)構(gòu)化文檔一體化管理平臺(tái)的基礎(chǔ)上,實(shí)現(xiàn)了用戶檢索時(shí)的智能搜索和主動(dòng)推薦,為公司各級(jí)用戶提供業(yè)務(wù)化、融合化、智能化、主動(dòng)化、個(gè)性化的非結(jié)構(gòu)化數(shù)據(jù)信息資源入口,提高了非結(jié)構(gòu)化數(shù)據(jù)管理和應(yīng)用效率,同時(shí)提升了業(yè)務(wù)人員在獲取非結(jié)構(gòu)化文件數(shù)據(jù)時(shí)的體驗(yàn),更好的發(fā)揮數(shù)據(jù)價(jià)值。
美林?jǐn)?shù)據(jù)多年來已經(jīng)為高端制造、能源、金融、教育、政務(wù)等多個(gè)行業(yè)的上千家大型企業(yè)提供數(shù)據(jù)治理、數(shù)據(jù)分析與挖掘等數(shù)字化技術(shù)服務(wù),持續(xù)幫助企業(yè)發(fā)現(xiàn)數(shù)據(jù)價(jià)值。在數(shù)字經(jīng)濟(jì)爆發(fā)性增長的當(dāng)下,美林?jǐn)?shù)據(jù)將繼續(xù)發(fā)揮技術(shù)優(yōu)勢(shì)與產(chǎn)品優(yōu)勢(shì),加快大數(shù)據(jù)、人工智能與實(shí)體產(chǎn)業(yè)的深度融合,進(jìn)一步推動(dòng)數(shù)據(jù)產(chǎn)業(yè)發(fā)展,助力企業(yè)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型。

服務(wù)熱線
400-608-2558
咨詢熱線
15502965860
美林?jǐn)?shù)據(jù)
微信掃描二維碼,立即在線咨詢