ผลวิเคราะห์ความสัมพันธ์ระหว่างนักวิจัย สจล. จากข้อมูล Google Scholar (เวอร์ชั่น 0.1)
เป็นความคืบหน้าส่วนหนึ่งของ OKR Human Cloud รับผิดชอบโดยสำนักบริการคอมพิวเตอร์
- นำเข้าข้อมูลและวิเคราะห์ข้อมูลโดย น.ส. ภัทรพร ลอยหา และ น.ส. อัญญากัลป์ เตชะพีระสิทธิ์ (นักศึกษาฝึกงานภาคฤดูร้อน จากหลักสูตรวิทยาการข้อมูลและการวิเคราะห์เชิงธุรกิจ คณะเทคโนโลยีสารสนเทศ สจล.)
- วางกรอบการทำงานและจัดทำแผนภาพโดย ผศ.ดร. รัฐชัย ชาวอุทัย (อาจารย์ภาควิชาวิศวกรรมคอมพิวเตอร์ และ ผู้ช่วยผู้อำนวยการสำนักบริการคอมพิวเตอร์ สจล.)
- สนับสนุนข้อมูลโดย Google Scholar
- สนับสนุนการปฏิบัติงานโดย ผู้บริหารและทีมงาน สำนักบริการคอมพิวเตอร์ สจล.
ในการใช้งาน หากฟิลเตอร์งานวิจัยร่วมเป็น 0 หมายความว่า นักวิจัยที่มีเส้นเชื่อมโยงกันมีลักษณะงานวิจัยคล้ายกัน โดยที่ไม่เคยทำวิจัยร่วมกันมาก่อน
ขั้นตอนการวิเคราะห์
- ดึงข้อมูลงานวิจัยจากนักวิจัยที่ลงทะเบียนใน Google Scholar และตั้งค่าต้นสังกัดเป็น King Mongkut’s Institute of Technology Ladkrabang ด้วยไลบราลี่ Beautiful Soup
ดูตัวอย่างจาก https://scholar.google.com/citations?view_op=view_org&hl=en&org=13187086001343916751 - นำข้อมูล authors, research title, และ abstract มาใช้
- นำ research title และ abstract มาตัดคำ, ใช้เทคนิค Stemming และ Lemmatization, และ TF-IDF เพื่อหา key terms
- สรุป key terms ของแต่ละนักวิจัย
- นำ key terms ของแต่ละคู่นักวิจัยมาเปรียบเทียบด้วย Jaccard Similarity (ค่าอยู่ระหว่าง 0 – 1)
- สรุปจำนวนการเป็น co-author ของแต่ละคู่นักวิจัย
- เนื่องจากข้อมูลใน Google Scholar ไม่ระบุคณะ/วิทยาลัย/วิทยาเขต จึงต้องใช้ข้อมูลร่วมกับฐานข้อมูลบุคคลากรของ สจล. แต่พบปัญหาที่ชื่อนักวิจัยทั้งสองแหล่งข้อมูลไม่เหมือนกัน 100% จึงใช้วิธีนับจำนวน A-Z ของแต่ชื่อ แล้วเปรียบเทียบกันด้วย Cosine Similarity
- นำมาแสดงผลด้วย Microsoft Power BI
ข้อจำกัดและแนวทางแก้ปัญหา
- ข้อมูลนักวิจัยมีไม่สมบูรณ์เนื่องจากอ้างอิงจาก Google Scholar เพียงแหล่งเดียว และนักวิจัยหลายท่านไม่ได้ลงทะเบียนบัญชีของ Google Scholar ไว้ ในการแก้ปัญหาแนะนำให้นักวิจัยลงทะเบียนข้อมูลใน Google Scholar
- ในการหา key terms ด้วย TF-IDF ยังไม่ใช่เทคนิคที่ดีที่สุด ทำให้ได้คำศัพท์หลายคำที่ไม่เกี่ยวข้องออกมา ในลำดับต่อไปต้องมีการสร้างออนโทโลยีของคำศัพท์งานวิจัยและใช้ Semantic Technology ในการคำนวณความคล้ายกันของนักวิจัย