Text mining in Thailand

การทำเหมืองข้อความ (อังกฤษ: text mining) หรืออาจจะเรียกว่า การค้นหาความรู้ในฐานข้อมูลเอกสาร (Knowledge Discovery in Document Databases) เป็นเทคนิคเพื่อค้นหารูปแบบ (pattern) ของจากข้อความจำนวนมหาศาลโดยอัตโนมัติ โดยใช้ขั้นตอนวิธีจากวิชาสถิติ การเรียนรู้ของเครื่อง และ การรู้จำแบบ หรือในอีกนิยามหนึ่ง การทำเหมืองข้อความ คือ กระบวนการที่กระทำกับข้อความ(โดยส่วนใหญ่จะมีจำนวนมาก) เพื่อค้นหารูปแบบ แนวทาง และความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อความนั้น โดยอาศัยหลักสถิติ การรู้จำ การเรียนรู้ของเครื่อง หลักคณิตศาสตร์ หลักการประมวลเอกสาร (Document Processing) หลักการประมวลผลข้อความ (Text Processing) และหลักการประมวลผลภาษาธรรมชาติ (Natural Language Processing)

ความรู้ที่ได้จากการทำเหมืองข้อความมีหลายรูปแบบ ได้แก่

การสรุปเอกสารข้อความ (Document Summarization)

เป็นการลดความซับซ้อนและขนาดของเอกสารข้อความโดยไม่ทำให้ความหมายหรือสาระสำคัญของข้อมูลเอกสารสูญเสียไป

การแบ่งประเภทเอกสารข้อความ (Document classification)

จัดแบ่งประเภทของกลุ่มเอกสารข้อความออกเป็นคลาส โดยการใช้ชุดข้อมูลตัวอย่างของเอกสารข้อความที่เรียกว่า Training Set สำหรับสร้าง Classifier Model และทดสอบ Classifier Model ด้วย Test Set ขั้นตอนวิธี ได้แก่ Supervised Learning Neural Networks, C4.5 Decision Tree

การแบ่งกลุ่มเอกสารข้อความ (Document clustering)

จัดแบ่งเอกสารข้อความออกเป็นกลุ่ม โดยใช้การวัดความคล้ายคลึงและความแตกต่างของคุณลักษณะของเอกสารข้อความ เพื่อนำไปใช้ประโยชน์ในด้านการข่าว ข้อมูลเอกสารจะถูกแปลงให้เป็นชุดข้อมูลตัวเลขโดยวิธีการ DFxIDF (Vector Space Model) จากนั้นถึงใช้ขั้นตอนวิธีการแบ่งกลุ่มข้อมูล ได้แก่ K-Mean, Unsupervised Learning Neural Networks, Hierarchical Clustering

[แก้]ขั้นตอนการทำเหมืองข้อความ

ทำความเข้าใจปัญหา
ทำความเข้าใจข้อมูล
เตรียมข้อมูล (Text Corpus: Training set, Test set)
สร้างแบบจำลอง จากขั้นตอนวิธี
ประเมิน
นำไปใช้งาน

[แก้]ดูเพิ่ม

[แก้]แหล่งข้อมูลอื่น

KDnuggets - a portal for Data Mining, Knowledge Discovery, Genomic Mining, Web Mining
Data Mining whitepapers, webcasts and case studies
Open Directory Project - Data Mining websites
กลุ่มวิจัยในประเทศไทย

Text mining in Thailand

วันพุธที่ 18 พฤศจิกายน พ.ศ. 2552

การทำเหมืองข้อความ

[แก้]ขั้นตอนการทำเหมืองข้อความ

[แก้]ดูเพิ่ม

[แก้]แหล่งข้อมูลอื่น

ผู้ติดตาม

คลังบทความของบล็อก

เกี่ยวกับฉัน