วันพุธที่ 18 พฤศจิกายน พ.ศ. 2552

การทำเหมืองข้อความ

การทำเหมืองข้อความ (อังกฤษ: text mining) หรืออาจจะเรียกว่า การค้นหาความรู้ในฐานข้อมูลเอกสาร (Knowledge Discovery in Document Databases) เป็นเทคนิคเพื่อค้นหารูปแบบ (pattern) ของจากข้อความจำนวนมหาศาลโดยอัตโนมัติ โดยใช้ขั้นตอนวิธีจากวิชาสถิติ การเรียนรู้ของเครื่อง และ การรู้จำแบบ หรือในอีกนิยามหนึ่ง การทำเหมืองข้อความ คือ กระบวนการที่กระทำกับข้อความ(โดยส่วนใหญ่จะมีจำนวนมาก) เพื่อค้นหารูปแบบ แนวทาง และความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อความนั้น โดยอาศัยหลักสถิติ การรู้จำ การเรียนรู้ของเครื่อง หลักคณิตศาสตร์ หลักการประมวลเอกสาร (Document Processing) หลักการประมวลผลข้อความ (Text Processing) และหลักการประมวลผลภาษาธรรมชาติ (Natural Language Processing)

ความรู้ที่ได้จากการทำเหมืองข้อความมีหลายรูปแบบ ได้แก่

การสรุปเอกสารข้อความ (Document Summarization)

เป็นการลดความซับซ้อนและขนาดของเอกสารข้อความโดยไม่ทำให้ความหมายหรือสาระสำคัญของข้อมูลเอกสารสูญเสียไป

การแบ่งประเภทเอกสารข้อความ (Document classification)

จัดแบ่งประเภทของกลุ่มเอกสารข้อความออกเป็นคลาส โดยการใช้ชุดข้อมูลตัวอย่างของเอกสารข้อความที่เรียกว่า Training Set สำหรับสร้าง Classifier Model และทดสอบ Classifier Model ด้วย Test Set ขั้นตอนวิธี ได้แก่ Supervised Learning Neural Networks, C4.5 Decision Tree

การแบ่งกลุ่มเอกสารข้อความ (Document clustering)

จัดแบ่งเอกสารข้อความออกเป็นกลุ่ม โดยใช้การวัดความคล้ายคลึงและความแตกต่างของคุณลักษณะของเอกสารข้อความ เพื่อนำไปใช้ประโยชน์ในด้านการข่าว ข้อมูลเอกสารจะถูกแปลงให้เป็นชุดข้อมูลตัวเลขโดยวิธีการ DFxIDF (Vector Space Model) จากนั้นถึงใช้ขั้นตอนวิธีการแบ่งกลุ่มข้อมูล ได้แก่ K-Mean, Unsupervised Learning Neural Networks, Hierarchical Clustering

[แก้]ขั้นตอนการทำเหมืองข้อความ

  1. ทำความเข้าใจปัญหา
  2. ทำความเข้าใจข้อมูล
  3. เตรียมข้อมูล (Text Corpus: Training set, Test set)
  4. สร้างแบบจำลอง จากขั้นตอนวิธี
  5. ประเมิน
  6. นำไปใช้งาน

[แก้]ดูเพิ่ม

[แก้]แหล่งข้อมูลอื่น