fbpx
วิกิพีเดีย

การทำเหมืองข้อความ

การทำเหมืองข้อความ (อังกฤษ: text mining) หรืออาจจะเรียกว่า "การค้นหาความรู้ในฐานข้อมูลเอกสาร" (Knowledge Discovery in Document Databases) เป็นเทคนิคเพื่อค้นหารูปแบบ (pattern) ของจากข้อความจำนวนมหาศาลโดยอัตโนมัติ โดยใช้ขั้นตอนวิธีจากวิชาสถิติ การเรียนรู้ของเครื่อง และ การรู้จำแบบ หรือในอีกนิยามหนึ่ง การทำเหมืองข้อความ คือ กระบวนการที่กระทำกับข้อความ (โดยส่วนใหญ่จะมีจำนวนมาก) เพื่อค้นหารูปแบบ แนวทาง และความสัมพันธ์ที่ซ่อนอยู่ในชุดข้อความนั้น โดยอาศัยหลักสถิติ การรู้จำ การเรียนรู้ของเครื่อง หลักคณิตศาสตร์ หลักการประมวลเอกสาร (Document Processing) หลักการประมวลผลข้อความ (Text Processing) และหลักการประมวลผลภาษาธรรมชาติ (Natural Language Processing)

ความรู้ที่ได้จากการทำเหมืองข้อความ

การสรุปเอกสารข้อความ (Document Summarization)
เป็นการลดความซับซ้อนและขนาดของเอกสารข้อความโดยไม่ทำให้ความหมายหรือสาระสำคัญของข้อมูลเอกสารสูญเสียไป
การแบ่งประเภทเอกสารข้อความ (Document classification)
จัดแบ่งประเภทของกลุ่มเอกสารข้อความออกเป็นคลาส โดยการใช้ชุดข้อมูลตัวอย่างของเอกสารข้อความที่เรียกว่า Training Set สำหรับสร้าง Classifier Model และทดสอบ Classifier Model ด้วย Test Set ขั้นตอนวิธี ได้แก่ Supervised Learning Neural Networks, C4.5 Decision Tree
การแบ่งกลุ่มเอกสารข้อความ (Document clustering)
จัดแบ่งเอกสารข้อความออกเป็นกลุ่ม โดยใช้การวัดความคล้ายคลึงและความแตกต่างของคุณลักษณะของเอกสารข้อความ เพื่อนำไปใช้ประโยชน์ในด้านการข่าว ข้อมูลเอกสารจะถูกแปลงให้เป็นชุดข้อมูลตัวเลขโดยวิธีการ TF IDF โดยอาศัยวิธีการแทนเอกสารด้วยแบบจำลองเวกเตอร์สเปซ (อังกฤษ: Vector Space Model) และการให้น้ำหนักคำ (อังกฤษ: Term Weighting)จากนั้นถึงใช้ขั้นตอนวิธีการแบ่งกลุ่มข้อมูล ได้แก่ K-Mean, Unsupervised Learning Neural Networks, Hierarchical Clustering

ขั้นตอนการทำเหมืองข้อความ

  1. ทำความเข้าใจปัญหา
  2. ทำความเข้าใจข้อมูล
  3. เตรียมข้อมูล (Text Corpus: Training set, Test set)
  4. สร้างแบบจำลอง จากขั้นตอนวิธี
  5. ประเมิน
  6. นำไปใช้งาน

ดูเพิ่ม

แหล่งข้อมูลอื่น

การทำเหม, องข, อความ, บทความน, ไม, การอ, างอ, งจากแหล, งท, มาใดกร, ณาช, วยปร, บปร, งบทความน, โดยเพ, มการอ, างอ, งแหล, งท, มาท, าเช, อถ, เน, อความท, ไม, แหล, งท, มาอาจถ, กค, ดค, านหร, อลบออก, เร, ยนร, าจะนำสารแม, แบบน, ออกได, อย, างไรและเม, อไร, งกฤษ, text, min. bthkhwamniimmikarxangxingcakaehlngthimaidkrunachwyprbprungbthkhwamni odyephimkarxangxingaehlngthimathinaechuxthux enuxkhwamthiimmiaehlngthimaxacthukkhdkhanhruxlbxxk eriynruwacanasaraemaebbnixxkidxyangiraelaemuxir karthaehmuxngkhxkhwam xngkvs text mining hruxxaccaeriykwa karkhnhakhwamruinthankhxmulexksar Knowledge Discovery in Document Databases epnethkhnikhephuxkhnharupaebb pattern khxngcakkhxkhwamcanwnmhasalodyxtonmti odyichkhntxnwithicakwichasthiti kareriynrukhxngekhruxng aela karrucaaebb hruxinxikniyamhnung karthaehmuxngkhxkhwam khux krabwnkarthikrathakbkhxkhwam odyswnihycamicanwnmak ephuxkhnharupaebb aenwthang aelakhwamsmphnththisxnxyuinchudkhxkhwamnn odyxasyhlksthiti karruca kareriynrukhxngekhruxng hlkkhnitsastr hlkkarpramwlexksar Document Processing hlkkarpramwlphlkhxkhwam Text Processing aelahlkkarpramwlphlphasathrrmchati Natural Language Processing enuxha 1 khwamruthiidcakkarthaehmuxngkhxkhwam 2 khntxnkarthaehmuxngkhxkhwam 3 duephim 4 aehlngkhxmulxunkhwamruthiidcakkarthaehmuxngkhxkhwam aekikhkarsrupexksarkhxkhwam Document Summarization epnkarldkhwamsbsxnaelakhnadkhxngexksarkhxkhwamodyimthaihkhwamhmayhruxsarasakhykhxngkhxmulexksarsuyesiyipkaraebngpraephthexksarkhxkhwam Document classification cdaebngpraephthkhxngklumexksarkhxkhwamxxkepnkhlas odykarichchudkhxmultwxyangkhxngexksarkhxkhwamthieriykwa Training Set sahrbsrang Classifier Model aelathdsxb Classifier Model dwy Test Set khntxnwithi idaek Supervised Learning Neural Networks C4 5 Decision Treekaraebngklumexksarkhxkhwam Document clustering cdaebngexksarkhxkhwamxxkepnklum odyichkarwdkhwamkhlaykhlungaelakhwamaetktangkhxngkhunlksnakhxngexksarkhxkhwam ephuxnaipichpraoychnindankarkhaw khxmulexksarcathukaeplngihepnchudkhxmultwelkhodywithikar TF IDF odyxasywithikaraethnexksardwyaebbcalxngewketxrseps xngkvs Vector Space Model aelakarihnahnkkha xngkvs Term Weighting caknnthungichkhntxnwithikaraebngklumkhxmul idaek K Mean Unsupervised Learning Neural Networks Hierarchical Clusteringkhntxnkarthaehmuxngkhxkhwam aekikhthakhwamekhaicpyha thakhwamekhaickhxmul etriymkhxmul Text Corpus Training set Test set srangaebbcalxng cakkhntxnwithi praemin naipichnganduephim aekikhkhlngkhxmul Data warehouse karthaehmuxngkhxmul Data mining karthaehmuxngewb Web mining thankhxmul Database aehlngkhxmulxun aekikhKDnuggets a portal for Data Mining Knowledge Discovery Genomic Mining Web Mining Data Mining whitepapers webcasts and case studies Open Directory Project Data Mining websites Knowledge Discovery from Large Database Research Group KDL mhawithyalyekstrsastr Knowledge Information amp Data Management Laboratory KIND sthabnethkhonolyinanachatisirinthr mhawithyalythrrmsastr Data Mining amp Data Exploration Laboratory DME sthabnethkhonolyiphracxmeklaecakhunthharladkrabng ethkhnikhkarcaaenkpraephthexksar Document Classification ithy ekhathungcak https th wikipedia org w index php title karthaehmuxngkhxkhwam amp oldid 5496225, wikipedia, วิกิ หนังสือ, หนังสือ, ห้องสมุด,

บทความ

, อ่าน, ดาวน์โหลด, ฟรี, ดาวน์โหลดฟรี, mp3, วิดีโอ, mp4, 3gp, jpg, jpeg, gif, png, รูปภาพ, เพลง, เพลง, หนัง, หนังสือ, เกม, เกม