ค้นหาองค์กร

จากวิกิพีเดีย สารานุกรมเสรี
ข้ามไปที่การนำทาง ข้ามไปที่การค้นหา

การค้นหาระดับองค์กรคือแนวทางปฏิบัติในการสร้างเนื้อหาจากแหล่งที่มาหลายประเภทขององค์กร เช่นฐานข้อมูลและอินทราเน็ตสามารถค้นหาได้สำหรับผู้ชมที่กำหนด [1]

"การค้นหาองค์กร" ใช้เพื่ออธิบายซอฟต์แวร์ของข้อมูลการค้นหาภายในองค์กร (แม้ว่าฟังก์ชันการค้นหาและผลลัพธ์อาจยังคงเป็นสาธารณะ) [2] การค้นหาระดับองค์กรสามารถเปรียบเทียบได้กับการค้นหาเว็บซึ่งใช้เทคโนโลยีการค้นหากับเอกสารบนเว็บแบบเปิด และการค้นหาเดสก์ท็อปซึ่งใช้เทคโนโลยีการค้นหากับเนื้อหาบนคอมพิวเตอร์เครื่องเดียว

องค์กรระบบการค้นหาข้อมูลดัชนีและเอกสารจากแหล่งต่างๆเช่นระบบไฟล์ , อินทราเน็ต , ระบบการจัดการเอกสาร , อีเมล์และฐานข้อมูล ระบบการค้นหาขององค์กรจำนวนมากรวมข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างไว้ในคอลเล็กชันของตน [3]ระบบค้นหาระดับองค์กรยังใช้การควบคุมการเข้าถึงเพื่อบังคับใช้นโยบายความปลอดภัยกับผู้ใช้ [4]

การค้นหาองค์กรสามารถเห็นได้ว่าเป็นการค้นหาแนวตั้งขององค์กร

ส่วนประกอบของระบบค้นหาองค์กร

ในระบบการค้นหาขององค์กร เนื้อหาจะผ่านขั้นตอนต่างๆ ตั้งแต่ที่เก็บต้นทางไปจนถึงผลการค้นหา:

การรับรู้เนื้อหา

การรับรู้เนื้อหา (หรือ "การรวบรวมเนื้อหา") มักจะเป็นแบบผลักหรือดึง ในรูปแบบพุช ระบบต้นทางถูกรวมเข้ากับเสิร์ชเอ็นจิ้นในลักษณะที่เชื่อมต่อและผลักเนื้อหาใหม่ไปยังAPIโดยตรง โมเดลนี้ใช้เมื่อการจัดทำดัชนีแบบเรียลไทม์มีความสำคัญ ในรูปแบบดึง ซอฟต์แวร์จะรวบรวมเนื้อหาจากแหล่งที่มาโดยใช้ตัวเชื่อมต่อ เช่น ตัวรวบรวมข้อมูลเว็บหรือตัวเชื่อมต่อฐานข้อมูล โดยทั่วไปตัวเชื่อมต่อจะสำรวจแหล่งที่มาด้วยช่วงเวลาหนึ่งเพื่อค้นหาเนื้อหาใหม่ อัปเดตหรือลบ [5]

การประมวลผลและการวิเคราะห์เนื้อหา

เนื้อหาจากแหล่งต่างๆ อาจมีรูปแบบหรือเอกสารหลายประเภท เช่น XML, HTML, รูปแบบเอกสาร Office หรือข้อความธรรมดา ขั้นตอนการประมวลผลเนื้อหาจะประมวลผลเอกสารขาเข้าเป็นข้อความธรรมดาโดยใช้ตัวกรองเอกสาร นอกจากนี้ยังเป็นสิ่งที่จำเป็นไปยังเนื้อหาปกติในรูปแบบต่างๆในการปรับปรุงการเรียกคืนหรือความแม่นยำเหล่านี้อาจรวมถึงการเกิด , lemmatization , ไวพจน์การขยายตัวของการสกัดนิติบุคคล , ส่วนหนึ่งของการพูดการติดแท็ก

ในฐานะที่เป็นส่วนหนึ่งของการประมวลผลและการวิเคราะห์tokenizationถูกนำไปใช้ในการแยกเนื้อหาลงในราชสกุลซึ่งเป็นหน่วยพื้นฐานการจับคู่ นอกจากนี้ยังเป็นเรื่องปกติที่จะทำให้โทเค็นเป็นมาตรฐานเป็นตัวพิมพ์เล็กเพื่อให้การค้นหาที่ไม่คำนึงถึงตัวพิมพ์เล็กและตัวพิมพ์ใหญ่ รวมทั้งทำให้สำเนียงปกติเพื่อให้จำได้ดีขึ้น

การจัดทำดัชนี

ข้อความผลลัพธ์จะถูกเก็บไว้ในดัชนีซึ่งได้รับการปรับให้เหมาะสมสำหรับการค้นหาอย่างรวดเร็วโดยไม่ต้องเก็บข้อความทั้งหมดของเอกสาร ดัชนีอาจมีพจนานุกรมคำที่ไม่ซ้ำกันทั้งหมดในคลังรวมถึงข้อมูลเกี่ยวกับการจัดอันดับและความถี่ระยะ

การประมวลผลคำค้นหา

เมื่อใช้หน้าเว็บ ผู้ใช้จะทำการสอบถามไปยังระบบ เคียวรีประกอบด้วยเงื่อนไขใดๆ ที่ผู้ใช้ป้อน เช่นเดียวกับการดำเนินการในการนำทาง เช่น ข้อมูลfacetingและ paging

จับคู่

แบบสอบถามที่ประมวลผลแล้วจะถูกเปรียบเทียบกับดัชนีที่เก็บไว้ และระบบการค้นหาจะส่งกลับผลลัพธ์ (หรือ "hits") ที่อ้างอิงถึงเอกสารต้นฉบับที่ตรงกัน บางระบบสามารถนำเสนอเอกสารตามที่จัดทำดัชนีไว้

ความแตกต่างจากการค้นเว็บ

นอกเหนือจากความแตกต่างในประเภทของวัสดุที่จัดทำดัชนีแล้ว ระบบค้นหาขององค์กรยังรวมฟังก์ชันการทำงานที่ไม่เกี่ยวข้องกับเครื่องมือค้นหาเว็บทั่วไปด้วย ซึ่งรวมถึง:

  1. การแปลงข้อความค้นหาและเผยแพร่ไปยังกลุ่มฐานข้อมูลที่แตกต่างกันหรือแหล่งเนื้อหาภายนอกที่มีรูปแบบที่เหมาะสม
  2. รวมผลลัพธ์ที่รวบรวมจากฐานข้อมูล
  3. นำเสนอในรูปแบบที่กระชับและเป็นหนึ่งเดียวโดยมีการทำซ้ำน้อยที่สุดและ
  4. จัดเตรียมวิธีการ ดำเนินการโดยอัตโนมัติหรือโดยผู้ใช้พอร์ทัล เพื่อเรียงลำดับชุดผลลัพธ์ที่ผสาน
  • บุ๊กมาร์กองค์กรระบบการแท็กที่ทำงานร่วมกันเพื่อรวบรวมความรู้เกี่ยวกับข้อมูลองค์กรแบบมีโครงสร้างและกึ่งโครงสร้าง
  • การแยกเอนทิตีที่พยายามค้นหาตำแหน่งและจัดประเภทองค์ประกอบในข้อความเป็นหมวดหมู่ที่กำหนดไว้ล่วงหน้า เช่น ชื่อของบุคคล องค์กร สถานที่ การแสดงออกของเวลา ปริมาณ มูลค่าเงิน เปอร์เซ็นต์ ฯลฯ
  • การค้นหาแบบแยกส่วน เทคนิคในการเข้าถึงคอลเล็กชันข้อมูลที่แสดงโดยใช้การจัดประเภทแบบเหลี่ยมทำให้ผู้ใช้สามารถสำรวจได้โดยการกรองข้อมูลที่มีอยู่
  • การควบคุมการเข้าถึง ซึ่งมักจะอยู่ในรูปแบบของรายการควบคุมการเข้าถึง (ACL) มักจะจำเป็นเพื่อจำกัดการเข้าถึงเอกสารตามข้อมูลระบุตัวตนของผู้ใช้แต่ละราย มีกลไกการควบคุมการเข้าถึงหลายประเภทสำหรับแหล่งเนื้อหาที่แตกต่างกัน ทำให้เป็นงานที่ซับซ้อนในการแก้ไขปัญหาอย่างครอบคลุมในสภาพแวดล้อมการค้นหาขององค์กร (ดูด้านล่าง)
  • การจัดกลุ่มข้อความซึ่งจัดกลุ่มผลการค้นหาหลายร้อยอันดับแรกออกเป็นหัวข้อที่คำนวณได้ทันทีจากคำอธิบายผลการค้นหา โดยทั่วไปแล้วจะเป็นชื่อ ข้อความที่ตัดตอนมา (ตัวอย่าง) และข้อมูลเมตา เทคนิคนี้ช่วยให้ผู้ใช้นำทางเนื้อหาตามหัวข้อแทนที่จะใช้ข้อมูลเมตาที่ใช้ในการเผชิญหน้า การทำคลัสเตอร์จะชดเชยปัญหาของข้อมูลเมตาที่เข้ากันไม่ได้ในที่เก็บขององค์กรหลายแห่ง ซึ่งเป็นอุปสรรคต่อประโยชน์ของการเผชิญหน้า
  • ส่วนต่อประสานผู้ใช้ซึ่งในการค้นหาเว็บนั้นจงใจเก็บไว้อย่างเรียบง่าย เพื่อไม่ให้รบกวนผู้ใช้จากการคลิกโฆษณาซึ่งสร้างรายได้ แม้ว่ารูปแบบธุรกิจสำหรับการค้นหาในองค์กรอาจรวมถึงการแสดงโฆษณาด้วย แต่ในทางปฏิบัติยังไม่สามารถทำได้ เพื่อปรับปรุงประสิทธิภาพการทำงานของผู้ใช้ปลายทาง ผู้จำหน่ายระดับองค์กรได้ทดลองใช้ฟังก์ชัน UI ที่หลากหลายอย่างต่อเนื่อง ซึ่งใช้พื้นที่หน้าจอจำนวนมาก ซึ่งอาจเป็นปัญหาสำหรับการค้นหาเว็บ

ปัจจัยที่เกี่ยวข้อง

ปัจจัยที่กำหนดความเกี่ยวข้องของผลการค้นหาภายในบริบทขององค์กรคาบเกี่ยวกันแต่แตกต่างจากปัจจัยที่ใช้กับการค้นเว็บ[1]โดยทั่วไป เสิร์ชเอ็นจิ้นระดับองค์กรไม่สามารถใช้ประโยชน์จากโครงสร้างลิงก์แบบสมบูรณ์ตามที่พบในเนื้อหาไฮเปอร์เท็กซ์ของเว็บได้อย่างไรก็ตาม เสิร์ชเอ็นจิ้นรุ่นใหม่ของ Enterprise ที่ใช้เทคโนโลยีWeb 2.0จากล่างขึ้นบนนั้นให้แนวทางสนับสนุนทั้งสองแบบ และไฮเปอร์ลิงก์ภายในองค์กร อัลกอริทึมเช่นPageRankใช้ประโยชน์จากโครงสร้างไฮเปอร์ลิงก์เพื่อกำหนดสิทธิ์ให้กับเอกสาร แล้วใช้สิทธิ์นั้นเป็นปัจจัยความเกี่ยวข้องที่ไม่ขึ้นกับคิวรี ในทางตรงกันข้าม องค์กรมักจะต้องใช้ปัจจัยอื่นๆ ที่ไม่ขึ้นกับคิวรี เช่น ความใหม่หรือความนิยมของเอกสาร ร่วมกับปัจจัยที่ขึ้นกับคิวรีซึ่งมักเกี่ยวข้องกับอัลกอริธึมการดึงข้อมูล นอกจากนี้ ฟังก์ชันการทำงานที่หลากหลายของ UI การค้นหาขององค์กร เช่น การจัดกลุ่มและการเผชิญหน้า ช่วยลดการพึ่งพาการจัดอันดับซึ่งเป็นวิธีการดึงความสนใจของผู้ใช้

การควบคุมการเข้าถึง: การผูกในช่วงต้นและการผูกล่าช้า

การรักษาความปลอดภัยและการจำกัดการเข้าถึงเอกสารเป็นสิ่งสำคัญในการค้นหาขององค์กร มีสองวิธีหลักในการใช้การเข้าถึงแบบจำกัด: การผูกในช่วงต้นและการผูกล่าช้า [6]

การผูกมัดล่าช้า

สิทธิ์จะได้รับการวิเคราะห์และกำหนดให้กับเอกสารในขั้นตอนการค้นหา เครื่องมือสืบค้นข้อมูลสร้างชุดเอกสารและก่อนที่จะส่งคืนให้กับผู้ใช้ ชุดนี้จะถูกกรองตามสิทธิ์การเข้าถึงของผู้ใช้ เป็นกระบวนการที่มีค่าใช้จ่ายสูงแต่แม่นยำ (ขึ้นอยู่กับการอนุญาตของผู้ใช้ในขณะที่สอบถาม)

การผูกมัดในช่วงต้น

สิทธิ์จะได้รับการวิเคราะห์และกำหนดให้กับเอกสารในขั้นตอนการทำดัชนี มีประสิทธิภาพมากกว่าการเชื่อมโยงสาย แต่อาจไม่ถูกต้อง (ผู้ใช้อาจได้รับหรือเพิกถอนการอนุญาตระหว่างช่วงเวลาระหว่างการจัดทำดัชนีและการสืบค้นข้อมูล)

ตัวเลือกการทดสอบความเกี่ยวข้องของการค้นหา

ค้นหาความเกี่ยวข้องของแอปพลิเคชันสามารถกำหนดได้โดยทำตามตัวเลือกการทดสอบความเกี่ยวข้องเช่น[7]

  • กลุ่มเป้าหมาย
  • โปรโตคอลการประเมินการอ้างอิง (ขึ้นอยู่กับการตัดสินความเกี่ยวข้องของผลลัพธ์จากการสอบถามที่ตกลงกันซึ่งดำเนินการกับคลังเอกสารทั่วไป)
  • การทดสอบเชิงประจักษ์
  • การทดสอบ A/B
  • การวิเคราะห์บันทึกบนไซต์การผลิตเบต้า
  • การให้คะแนนออนไลน์

ดูเพิ่มเติม

อ้างอิง

  1. อรรถเป็น ครุชวิทซ์ อูโด; ฮัลล์, ชาร์ลี (2017). "ค้นหาองค์กร". มูลนิธิและแนวโน้มในการดึงข้อมูล 11 : 1–142. ดอย : 10.1561/1500000053 .
  2. ^ "การค้นหาองค์กรคืออะไร" .
  3. ^ "หน้าใหม่ของ Enterprise Search: Bridging โครงสร้างและข้อมูลที่ไม่มีโครงสร้าง" (PDF) เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 2015-10-28 . สืบค้นเมื่อ2013-05-27 .
  4. ^ "ความต้องการความปลอดภัยในการค้นหา Enterprise: ส่วนที่ 1 - New Idea วิศวกรรม"
  5. ^ "เนื้อหาเข้าใจการเก็บรวบรวมและจัดทำดัชนี"
  6. ^ "Enterprise Search: การควบคุมการเข้าถึงเอกสาร" . เก็บถาวรจากต้นฉบับเมื่อ 2014-12-08 . สืบค้นเมื่อ2014-12-01 .
  7. ^ "การดีบักโปรแกรมค้นหาความสัมพันธ์กันประเด็น" เก็บถาวรจากต้นฉบับเมื่อ 2013-06-05 . สืบค้นเมื่อ2013-05-27 .