×
支持199IT發展可加入知識交流群(10K+用戶),最有價值數據分享!
點擊即可加入!
關閉
title_temp-食色软件app下载

準確度VS速度——數據科學家能從搜索中學到什么?

作為數據科學家,我們有一個首要任務:提供準確的見解。如果你和我一樣,一個同時從事搜索(或與此相關的任何實時應用程序)的數據科學家,你必須管理兩個有時會相互沖突的優先事項:準確性和速度。
作為一名數據科學家,我將帶您了解一些我在搜索中通過反復嘗試學到的東西,包括如何消除一些可能會在您構建一個需要與其他領域學科交叉協作的工具時出現的摩擦的技巧。
學習如何思考搜索
對于數據科學家,這里有很多關于搜索的特定術語和概念。例如,發現倒排索引的強大功能——我以前從未使用過這個概念——對于構建搜索平臺至關重要。(僅供參考:倒排索引是“一種搜索文檔、圖像、媒體和任何文件源結構的數據的簡單方法”。)
我必須學習的另一個領域是如何在流水線中組織自然語言處理(拼寫錯誤、實體提取或查詢重寫的同義詞檢測)和其他機器學習技術(分類器、聚類、推薦器)。
在花時間了解了搜索平臺的機制之后,我已經快要實現目的了。但后來我不得不想辦法衡量結果。搜索開發人員和企業用來確定其搜索平臺效率的指標和KPI對我來說是新事物。
例如,數據科學家首要關注以錯誤率、錯誤類型、錯誤分類等為目標的模型精度度量。然而,用于度量模型精度的指標有時很難可信地運用到搜索相關的聚合業務度量。搜索指標傾向于更以業務為導向,包括點擊率、添加到購物車和購買(用于電子商務)、評論、共享和文檔和結果評級(用于數字工作區)。

如果一開始這讓人感到很艱巨(就像第一次踏入新領域),請要就您組織中的搜索開發人員在每個項目開始時帶您了解術語、度量標準和部署注意事項。這種知識轉移應該是雙向的,以防搜索開發人員需要對數據科學過程和方法有個整體認知。不幸的是,在大多數組織中,定期促進這種跨職能的知識轉移是很少見的,而且當你把時間花在一個項目上,然后中途發現你是基于錯誤的假設上時,這會造成一個主要的痛點。
?
調整構建模型的方法
如果您完成了上面的練習,現在您將了解到搜索中的另一個主要干系人,即搜索開發人員,他們關注的是整個搜索管道是如何工作的。現在,您必須從精確性的角度考慮模型的運行方式,轉而考慮如何將它們作為一個組件安裝到一個更大的系統中。
采取一種“縮小方法”,捫心自問:“我清楚了解最終目標了嗎?我的模型得有多快?它們可擴展嗎?這些問題的答案可以作為指導方針,以在整個流程中構建更有效、更輕量級、更具響應性的模型,進而幫助推動業務成果。
對于數字商務公司來說,更好的業務成果意味著增加收入,而在數字工作區中,這意味著提高生產力。正如我之前所說,我們專注于提供準確的見解,但如果不知道模型如何融入整個系統,就很難知道您的結果是最相關的還是以最優的方式提供的。
保持項目的勢頭
提供令人愉快的搜索體驗需要跨職能學科共同協作和創新,如搜索開發、數據科學、運營和業務領域。但是,大多數組織在跨團隊協作方面遇到了多重障礙,包括流程、層次結構、個性和總體文化方面的障礙。在速度、準確度和集成度的優先順序之間進行折衷可能會在數據科學家和搜索開發人員之間的反復交流過程中產生摩擦。
理論上,最好的過程能夠實現迭代類型,并在數據科學家交付搜索開發人員可以集成的工件(模型)的過程中來回傳遞,在查詢體驗中快速測試,如果需要,將重新再循環它們以進行優化。大多數搜索項目由于缺乏集成和協作而失敗。這不是因為團隊沒有必要的知識,而是因為在目標、期望和過程上缺乏一致性。
溝通是關鍵。有人讓你坐下來并向你介紹他們做事情的過程,是非常有幫助的。在產生任何東西之前,理解其他搜索參與者的“生命中的一天”是非常重要的,包括使用什么數據源和數據格式、應用轉換、跟蹤度量和架構考慮。
在Lucidworks建立搜索平臺時,我們會記住這些摩擦點。我們經歷了數據科學家和搜索開發人員之間的坎坷,我們致力于平滑切換和與業務結果度量相連接,我們致力于使我們的客戶能夠部署最相關和性能最佳的搜索體驗。搜索并不容易,但如果設計正確,它會對客戶體驗產生重大影響!
?
數據科學家在搜索領域中的未來
在搜索領域,我們每天都在發現用深度學習可以改變搜索體驗的新方法。作為數據科學家,我們正朝著一個非常接近和可以實現的未來努力,那時人們將以對話的方式與應用程序交互。這已經發生在我們作為消費者的體驗中,但它也正開始全面應用到我們交互的所有數字應用程序中了。
工作場所應用程序的示例可以是ERP系統、CRM、商業智能應用程序或從其他系統集中檢索信息。我們已經看到了在處理提取口頭或自由形式的文本,并用機器可以理解的方式翻譯它們,以便用一個用戶可以理解和操作的形式來產生查詢并推出相關結果和建議的挑戰上的巨大成功。
搜索領域的新前沿是理解用戶的明示和暗示意圖,它需要超越僅僅理解文本。它包括使用搜索和用戶的瀏覽歷史記錄、用戶的屬性和他/她使用的搜索結果,以及其他可以預測當前搜索體驗結果的其他用戶的使用記錄等來學習上下文。
例如,當銷售專業人員鍵入:“為我的西北地區提供我的管道”時,理解其意圖可能意味著,如果需要外展,結果還包括聯系信息,如果他/她正在準備報告,則總結過去的溝通,或者對你的西南地區進行并排比較,以便進行基準測試。
作為數據科學家的成功秘訣(任何領域)
我為數據科學家教授職業準備研討課,我總是解釋說,我們是洞察力的提供者,而不是決策者。我們應該開發模型,讓人們能夠快速理解見解,然后應用它們做出明智的決策。最好的數據科學家可以開發模型,在正確的時間向正確的人提供“正確”的見解。為了增加你與數據科學家的相關性,我們鼓勵你擴展你的視角。大多數“獨角獸”發現自己處于這三個領域的交叉點:算法知識、系統/架構知識和業務/通信技能。
搜索是一種教科書式的表示,它描述了這些東西是如何組合在一起的,以便使系統發出聲音。如果你是一個算法專家,但不知道它是如何擴展的,或者不知道如何通過相關的搜索體驗將你的算法與驅動轉換的目標聯系起來,你將無法為公司帶來如此多的價值。
現在絕對是成為一個搜索領域數據科學家的絕佳時機。雖然搜索技術的發展已經無處不在,但我相信我們幾乎沒有觸到地面。我期待看到人工智能驅動的搜索用例如何繼續為數據科學家創造新的、令人興奮的和有影響的機會。
簡歷:Radu Miclaus是一名分析專業人士,擁有10多年的企業分析基礎架構設計經驗,專注于將原始數據轉化為可操作的洞察力并與決策系統集成。作為Lucidworks的AI-Radu產品總監,他專注于構建技術來改進搜索開發人員和數據科學家之間的協作。
原文標題:
Accuracy vs Speed – what Data Scientists can learn from Search
原文鏈接:
https://www.kdnuggets.com/2020/01/accuracy-speed-search.html
來自:?

感謝支持199IT
我們致力為中國互聯網研究和咨詢及IT行業數據專業人員和決策者提供一個數據共享平臺。

要繼續訪問我們的網站,只需關閉您的廣告攔截器并刷新頁面。
滾動到頂部