老师脱了内裤让我爽了一夜,嫩小bbb揉bbb揉bbbb,乱亲女h秽乱长久久久

產(chǎn)品簡介

美林新聞/NEWS

首頁美林?jǐn)?shù)據(jù) 美林新聞

美林?jǐn)?shù)據(jù)技術(shù)專家團(tuán)隊(duì) | 集團(tuán)系統(tǒng)數(shù)據(jù)檢索中相關(guān)內(nèi)容推薦的應(yīng)用

2021-08-17 09:20:00 次

某集團(tuán)公司通過近幾年的信息化建設(shè)，已經(jīng)基本完成了信息化的全業(yè)務(wù)覆蓋，初步實(shí)現(xiàn)了數(shù)據(jù)的集中存儲(chǔ)，數(shù)據(jù)存儲(chǔ)總量40T，數(shù)據(jù)條數(shù)增長量1494萬/月，數(shù)據(jù)存儲(chǔ)增長1T/月，其中有30%的數(shù)據(jù)是以文件的形式存儲(chǔ)。
文件作為業(yè)務(wù)活動(dòng)的過程記錄和結(jié)果沉淀，對(duì)于業(yè)務(wù)流程貫通、業(yè)務(wù)知識(shí)沉淀，具有非常重要的意義。該集團(tuán)公司的數(shù)據(jù)雖然已經(jīng)實(shí)現(xiàn)集中存儲(chǔ)，但是數(shù)據(jù)仍然按業(yè)務(wù)條線、按系統(tǒng)方式存儲(chǔ)、管理、利用，且文件數(shù)據(jù)具有非結(jié)構(gòu)化的特點(diǎn)，因此對(duì)于文件數(shù)據(jù)的利用效率很低。具體體現(xiàn)在：
01、集中管理后的價(jià)值充分展現(xiàn)，業(yè)務(wù)流轉(zhuǎn)過程中跨業(yè)務(wù)的數(shù)據(jù)獲取難。
02、缺乏對(duì)現(xiàn)有非結(jié)構(gòu)化文件數(shù)據(jù)的管理和檢索，導(dǎo)致了“人找數(shù)據(jù)難”的局面。
03、雖然已經(jīng)有了海量的文件數(shù)據(jù)，但這些數(shù)據(jù)并未形成知識(shí)加以沉淀。

面對(duì)目前存在的問題，通過公司領(lǐng)導(dǎo)層的協(xié)調(diào)推動(dòng)，梳理了各業(yè)務(wù)部門的具體業(yè)務(wù)數(shù)據(jù)和業(yè)務(wù)需求，設(shè)計(jì)了非結(jié)構(gòu)化文檔一體化管理平臺(tái)，在平臺(tái)實(shí)現(xiàn)過程中，通過自然語言處理、機(jī)器學(xué)習(xí)、人工智能等技術(shù)，對(duì)用戶獲取文件數(shù)據(jù)的檢索、瀏覽過程進(jìn)行分析，向用戶主動(dòng)推送相關(guān)內(nèi)容，將“人找數(shù)據(jù)”轉(zhuǎn)化為“數(shù)據(jù)找人”。

一、業(yè)務(wù)需求和問題定義
1 相關(guān)搜索
當(dāng)用戶在搜索框中輸入檢索內(nèi)容時(shí)，在右側(cè)推薦與檢索內(nèi)容相關(guān)的關(guān)鍵詞，并在推薦查詢欄給出相關(guān)的查詢結(jié)果。

2 相關(guān)文檔
當(dāng)用戶瀏覽文檔時(shí)，根據(jù)當(dāng)前文檔內(nèi)容，在右側(cè)推薦內(nèi)容相關(guān)的文檔。

三、搜索引擎與推薦系統(tǒng)
從信息獲取的角度來看，搜索和推薦是用戶獲取信息的兩種主要手段。
搜索是用戶主動(dòng)獲取信息的行為，用戶根據(jù)將自己的訴求用詞語、短語、句子的形式表達(dá)出來，輸入到搜索引擎中獲取檢索結(jié)果，用戶通過瀏覽和點(diǎn)擊檢索結(jié)果來判斷訴求是否得到滿足?？梢钥闯?，在應(yīng)用搜索時(shí)，用戶的需求是比較明確的。
推薦是用戶被動(dòng)接收信息的行為，推薦系統(tǒng)根據(jù)收集的用戶行為特征，結(jié)合歷史積累的數(shù)據(jù)，采用某種算法得到用戶可能感興趣的信息，并發(fā)送給用戶。因此，推薦對(duì)應(yīng)的是用戶模糊而不明確的需求。
目前主流的搜索引擎仍然是以文字構(gòu)成查詢?cè)~query，因?yàn)槲淖质敲枋鲂枨笞詈啙?、最直接的方式，搜索引擎抓取和索引的絕大部分內(nèi)容也是以文字方式組織的，在大多數(shù)搜索查詢中，用戶都是使用較短的query，一個(gè)query一般不會(huì)超過5個(gè)元素，通過搜索查詢很難描述用戶復(fù)雜的、潛在需求。
例如“公司最近下發(fā)的、與我日常工作相關(guān)的文件有哪些？”，“我正在瀏覽的文件相關(guān)的文件中，有哪些大家比較關(guān)注？”
幾乎沒有用戶愿意輸入這么多字來找結(jié)果，同時(shí)搜索引擎對(duì)語義的理解目前還無法做到足夠深入。因此，這類復(fù)雜的、潛在的需求無法通過搜索引擎得到滿意的查詢結(jié)果。所以在滿足這些需求的時(shí)候，通過推薦系統(tǒng)設(shè)置的功能（如：相關(guān)推薦、猜你喜歡、瀏覽過該信息的人還在關(guān)注），加上與用戶的交互（篩選、排序、點(diǎn)擊），不斷積累和挖掘用戶偏好，可以將這些難以用文字表達(dá)的需求良好的滿足起來。
在搜索引擎中加入推薦系統(tǒng)，有多種方式，簡單的做法可以基于查詢query和相關(guān)query，結(jié)合歷史的query和文檔的關(guān)聯(lián)數(shù)據(jù)，使用基于規(guī)則和基于內(nèi)容相結(jié)合的方法進(jìn)行推薦，這種方法就可以滿足一般的需求。

三、常用的推薦方法及算法
1 基于機(jī)器學(xué)習(xí)的方法

采用特征工程，提取和衍生出推薦信息（物）的各類特征，同時(shí)也提取和衍生出推薦對(duì)象（人）的各類特征，應(yīng)用機(jī)器學(xué)習(xí)算法，訓(xùn)練出推薦模型。
比如要推薦書籍，對(duì)書籍本身可以按照類型分(文藝、科學(xué)、科幻、小說……)，按照長短分(短篇、中篇、長篇……)，按照文字圖片比分(圖為主、文字為主……)等等；而用戶按照性別、年齡、所在城市等屬性劃分。
這種方法的優(yōu)點(diǎn)是方案簡單穩(wěn)定，缺點(diǎn)是每一個(gè)新用戶/物品出現(xiàn)的時(shí)候都要對(duì)其進(jìn)行貼標(biāo)簽(tagging)，然后對(duì)于新的屬性無能為力，需要人為干預(yù)改進(jìn)。
2 基于內(nèi)容相似的方法
基于內(nèi)容相似的推薦，是根據(jù)用戶過去關(guān)注的內(nèi)容（content），為用戶推薦和他過去關(guān)注的內(nèi)容相似的內(nèi)容。例如，一個(gè)推薦書籍的系統(tǒng)可以依據(jù)某個(gè)用戶之前喜歡很多的計(jì)算機(jī)相關(guān)的書籍而為他推薦《機(jī)器學(xué)習(xí)導(dǎo)論》。
基于內(nèi)容相似的推薦一般包括以下三步：
（1）Content Representation
為每個(gè)content抽取出一些特征來表示此content。
（2）Profile Learning
利用一個(gè)用戶過去關(guān)注（及取消關(guān)注）的content的特征數(shù)據(jù)，來學(xué)習(xí)出此用戶的偏好特征（profile）。
（3）Recommendation Generation
通過比較上一步得到的用戶profile與候選content的特征，為此用戶推薦一組相關(guān)性最大的content。
3 基于協(xié)同過濾的方法
根據(jù)用戶對(duì)目標(biāo)信息的喜好程度，找到和目標(biāo)用戶相似的用戶，然后將待推薦的信息打分，打分的權(quán)重根據(jù)與目標(biāo)用戶愛好類似的用戶的相關(guān)度給出，常見的做法是將用戶和信息之間的interaction做成一個(gè)矩陣，然后利用矩陣分解(SVD, LatentFactor)得出用戶的特征矩陣和信息的特征矩陣。
協(xié)同過濾現(xiàn)在是推薦系統(tǒng)比較主流的方法，Yahoo、豆瓣等網(wǎng)站就是采用這種方法。由于是基于用戶的推薦，所以對(duì)于熱門的信息，推薦效果往往比基于內(nèi)容相似的方法好很多，然而如果用戶不足，或者信息很冷門，效果就不太好，也就是說對(duì)新加入或小眾的信息和用戶不能很好的處理。
四、技術(shù)實(shí)現(xiàn)
考慮到本系統(tǒng)應(yīng)用于集團(tuán)企業(yè)內(nèi)部，使用的用戶數(shù)有限，不適宜采用基于用戶相似的協(xié)同過濾。因此在技術(shù)實(shí)現(xiàn)上，以基于內(nèi)容相似的推薦方法為主要框架，結(jié)合bert語義表達(dá)、文本相似算法、余弦夾角算法，實(shí)現(xiàn)相關(guān)搜索詞、相關(guān)文檔推薦等功能。
1 相關(guān)搜索詞推薦
整體框架是構(gòu)建相關(guān)搜索詞模型，計(jì)算歷史搜索詞之間的相關(guān)性，并將搜索詞與最相關(guān)的N個(gè)詞存入ES的相關(guān)詞索引中，當(dāng)用戶發(fā)起檢索時(shí)，從相關(guān)詞索引中找到對(duì)應(yīng)的相關(guān)詞展示出來。

（1）相關(guān)搜索詞的生成
相關(guān)搜索詞模型每日定時(shí)運(yùn)行，計(jì)算當(dāng)天新產(chǎn)生的搜索詞，并更新最近M條搜索詞的相關(guān)詞，計(jì)算結(jié)果保存在相關(guān)詞索引中。

（2）相關(guān)搜索詞的實(shí)時(shí)展現(xiàn)
當(dāng)用戶發(fā)起搜索query時(shí)，從相關(guān)詞索引中得到與query最相似的詞query*，將query*的相關(guān)詞返回展現(xiàn)在頁面上。

（3）詞典維護(hù)
項(xiàng)目需要維護(hù)停用詞典、自定義詞典，用以優(yōu)化相關(guān)詞推薦的效果。
停用詞典可以過濾掉推薦結(jié)果中需要屏蔽的詞。
自定義詞典示例：將“大數(shù)據(jù)建模”放入自定義詞典中，當(dāng)用戶檢索“如何進(jìn)行大數(shù)據(jù)建模”時(shí)，會(huì)將大數(shù)據(jù)建模這個(gè)自定義的關(guān)鍵詞增加到推薦結(jié)果中。
2 相關(guān)搜索結(jié)果推薦
將用戶檢索詞的相關(guān)搜索詞放入文檔索引中進(jìn)行檢索，從檢索結(jié)果排除掉當(dāng)前頁面展示的內(nèi)容后，展現(xiàn)在相關(guān)搜索結(jié)果中。

3 相關(guān)文檔推薦
對(duì)于每一篇文檔，通過文檔向量模型生成文檔對(duì)應(yīng)的向量，并將向量作為附加內(nèi)容與文檔一一起存到搜索引擎中，定期計(jì)算文檔之間的相似度，將最相似的N個(gè)文檔作為相關(guān)文檔存到搜索引擎中，當(dāng)用戶瀏覽特定文檔時(shí)，將該文檔的相關(guān)文檔列表展示出來。

（1）文檔向量生成
每次新增文檔時(shí)，調(diào)用文檔向量模型，獲取每篇文檔的向量，將文檔及文檔向量保存在搜引擎中。

（2）相關(guān)文檔計(jì)算
每天定時(shí)當(dāng)天新增的每一篇文檔執(zhí)行如下操作：
a.在搜索引擎中搜索該文檔title，獲取前N條得分最高的搜索結(jié)果
b.將該文檔和搜索得到的N個(gè)文檔放入相關(guān)文檔模型中，計(jì)算語義相似度和字面相似度，并進(jìn)行加權(quán)得到最終相似度矩陣，將前十個(gè)最相關(guān)的文檔保存到搜索引擎中。

（3）同義詞典
項(xiàng)目需要維護(hù)領(lǐng)域同義詞典，該詞典內(nèi)的詞在進(jìn)行相似度計(jì)算時(shí)起到權(quán)重加大的作用，詞典的結(jié)構(gòu)為[["x1","x2"],"x3",["x4","x5"]...]，如果元素為列表，表示列表內(nèi)的元素是同義詞。

五、總結(jié)
隨著集團(tuán)級(jí)企業(yè)的數(shù)據(jù)沉淀越來越多，高效、可靠的數(shù)據(jù)檢索可以大幅度提升數(shù)據(jù)的利用效率?；谝陨霞夹g(shù)方案，在構(gòu)建非結(jié)構(gòu)化文檔一體化管理平臺(tái)的基礎(chǔ)上，實(shí)現(xiàn)了用戶檢索時(shí)的智能搜索和主動(dòng)推薦，為公司各級(jí)用戶提供業(yè)務(wù)化、融合化、智能化、主動(dòng)化、個(gè)性化的非結(jié)構(gòu)化數(shù)據(jù)信息資源入口，提高了非結(jié)構(gòu)化數(shù)據(jù)管理和應(yīng)用效率，同時(shí)提升了業(yè)務(wù)人員在獲取非結(jié)構(gòu)化文件數(shù)據(jù)時(shí)的體驗(yàn)，更好的發(fā)揮數(shù)據(jù)價(jià)值。
美林?jǐn)?shù)據(jù)多年來已經(jīng)為高端制造、能源、金融、教育、政務(wù)等多個(gè)行業(yè)的上千家大型企業(yè)提供數(shù)據(jù)治理、數(shù)據(jù)分析與挖掘等數(shù)字化技術(shù)服務(wù)，持續(xù)幫助企業(yè)發(fā)現(xiàn)數(shù)據(jù)價(jià)值。在數(shù)字經(jīng)濟(jì)爆發(fā)性增長的當(dāng)下，美林?jǐn)?shù)據(jù)將繼續(xù)發(fā)揮技術(shù)優(yōu)勢(shì)與產(chǎn)品優(yōu)勢(shì)，加快大數(shù)據(jù)、人工智能與實(shí)體產(chǎn)業(yè)的深度融合，進(jìn)一步推動(dòng)數(shù)據(jù)產(chǎn)業(yè)發(fā)展，助力企業(yè)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型。

上一篇：美林?jǐn)?shù)據(jù)TempoAI上新啦！下一篇：抗“疫”而上奮戰(zhàn)一線美林?jǐn)?shù)據(jù)用行動(dòng)詮釋客戶利益至上

欧美40老熟妇色xxxxx,免费+国产+在线观看,末成年女a∨片一区二区,久久伊人色av天堂九九,免费中文熟妇在线影片

Tempo大數(shù)據(jù)分析平臺(tái)

Tempo商業(yè)智能平臺(tái)

Tempo人工智能平臺(tái)

Tempo數(shù)據(jù)工廠平臺(tái)

Tempo數(shù)據(jù)治理平臺(tái)

Tempo主數(shù)據(jù)管理平臺(tái)

Tempo指標(biāo)平臺(tái)

自助式可視化分析

算法模型管理

指標(biāo)管理解決方案

數(shù)字指揮中心

湖倉一體解決方案

智能場(chǎng)景應(yīng)用構(gòu)建

主數(shù)據(jù)應(yīng)用監(jiān)管

數(shù)據(jù)中臺(tái)

發(fā)電

電網(wǎng)

制造

油氣

煤炭

高校

政企

金融

科研院所

DCMM認(rèn)證

DAMA認(rèn)證

美林?jǐn)?shù)據(jù)

合作生態(tài)

內(nèi)容中心

幫助中心

美林新聞

行業(yè)資訊

產(chǎn)品簡介

Tempo商業(yè)智能平臺(tái)

Tempo人工智能平臺(tái)

Tempo數(shù)據(jù)工廠平臺(tái)

Tempo指標(biāo)平臺(tái)

Tempo數(shù)據(jù)治理平臺(tái)

Tempo主數(shù)據(jù)管理平臺(tái)

相關(guān)推薦

美林新聞/NEWS

美林?jǐn)?shù)據(jù)技術(shù)專家團(tuán)隊(duì) | 集團(tuán)系統(tǒng)數(shù)據(jù)檢索中相關(guān)內(nèi)容推薦的應(yīng)用

聯(lián)系我們

400-608-2558 029-8869-6198

掃碼關(guān)注我們

掃碼立即咨詢