กรุงเทพฯ--9 มี.ค.--NECTEC
กระทรวงวิทยาศาสตร์และเทคโนโลยี วันที่ ๘ มีนาคม ๒๕๕๕ : กระทรวงวิทยาศาสตร์และเทคโนโลยี โดย ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (เนคเทค) สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยีแห่งชาติ (สวทช.) เปิดตัวเว็บไซต์คลังข้อมูลเพื่อการวิจัยและพัฒนา (R&D Corpus) นำร่องคลังสื่อประสมและข้อความกำกับ (Annotated & Multimedia Corpus) มุ่งเป้าหมายให้กลุ่มอุตสาหกรรมซอฟต์แวร์ สถาบันการศึกษา บริษัทเอกชนและหน่วยงานพันธมิตรวิจัย นำข้อมูลงานวิจัยและพัฒนาของเนคเทคที่ผ่านมากว่า ๒๕ ปี ไปต่อยอดเพื่อให้เกิดประโยชน์ในด้านต่างๆ ช่วยลดต้นทุนการวิจัยพัฒนาให้กับองค์กรต่าง ๆ ไม่ต้องไปเริ่มต้นนับหนึ่งใหม่
ดร. พันธ์ศักดิ์ ศิริรัชตพงษ์ ผู้อำนวยการศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ หรือเนคเทค กล่าวว่า “สำนักงานพัฒนาวิทยาศาสตร์และเทคโนโลยี (สวทช.) ได้มีการเตรียมคลังข้อมูลเพื่อใช้ในการวิจัยและพัฒนาไว้หลากหลายเรื่อง งบประมาณที่ใช้ไปในการสร้างคลังข้อมูลเพื่อการวิจัยและพัฒนานี้สูงนับสิบล้าน ดังนั้นเพื่อเป็นการให้นักวิจัยทั่วประเทศได้ร่วมมือกันทำงานวิจัยและพัฒนาต่อยอดได้โดยไวและประหยัดงบประมาณ และเพื่อให้ได้ผลิตภัณฑ์ที่ดีในเวลาอันรวดเร็วขึ้น อันจะก่อให้เกิดประโยชน์ต่อประเทศชาติสูงสุด ทาง สวทช. โดยมอบหมายศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (เนคเทค) ให้จัดสร้างคลังข้อมูลเพื่อการวิจัยและพัฒนา (R&D Corpus) ขึ้น โดยในโครงการระยะแรกทางเนคเทคได้นำร่องพัฒนาคลังสื่อประสมและข้อความกำกับ (Annotated & Multimedia Corpus) โดยมีตัวอย่างการใช้ประโยชน์จากคลังข้อมูลเพื่อการวิจัยและพัฒนา อาทิ ในปัจจุบันอุตสาหกรรมซอฟต์แวร์และดิจิทัลคอนเทน์มีมูลค่าตลาดกว่าสามแสนล้านบาท สวทช. ร่วมกับสำนักงานส่งเสริมอุตสาหกรรมซอฟต์แวร์แห่งชาติ หรือซิป้า พยายามผลักดันให้อุตสาหกรรมดังกล่าวเพิ่มมูลค่าขึ้นเป็นห้าแสนล้านบาท หรือสูงเป็นอันดับสี่ของประเทศ ซอฟต์แวร์ที่เกี่ยวกับการประมวลผลภาษาไทยและดิจิทัลคอนเทนท์ไทยล้วนแต่ต้องการคุณสมบัติการแบ่งคำภาษาไทยและการรู้จำนิพจน์ระบุนามที่มีประสิทธิภาพ ซึ่งเกิดขึ้นได้จากการทดสอบซอฟต์แวร์กับคลังข้อความกำกับต่างๆ ดังนั้นหากผู้ประกอบการอุตสาหกรรมซอฟต์แวร์ทราบว่าซอฟต์แวร์แบ่งคำภาษาไทยและซอฟต์แวร์รู้จำนิพจน์ระบุนามตัวใดที่มีความสามารถใกล้เคียงกับความต้องการก็จะช่วยให้ผู้ประกอบการสามารถพัฒนาผลิตภัณฑ์ของตนได้ทันทีโดยไม่ต้องมาเริ่มต้นพัฒนาซอฟต์แวร์แบ่งคำภาษาไทยและซอฟต์แวร์
รู้จำนิพจน์ระบุนามของตนเอง ซึ่งจะช่วยลดความซ้ำซ้อนและทำให้พัฒนาผลิตภัณฑ์ได้เร็วขึ้น”ดร. จุฬารัตน์ ตันประเสริฐ ผู้อำนวยการหน่วยวิจัยวิทยาการสารสนเทศ ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ กล่าวเพิ่มเติมว่า คลังข้อมูลเพื่อการวิจัยและพัฒนา (R&D Corpus) ในโครงการนำร่องคลังสื่อประสมและข้อความกำกับ หรือที่เรียกว่า Annotated & Multimedia Corpus มีวัตถุประสงค์หลักคือการให้บริการคลังข้อมูลสื่อประสมที่มีการกำกับข้อมูลไว้สำหรับนักวิจัยไทยอย่างกว้างขวางและแพร่หลาย เพื่อให้ได้ผลงานวิจัยของไทยบนฐานคลังข้อมูลที่เป็นประโยชน์กับประเทศเพิ่มขึ้น โดยประหยัดทั้งทรัพยากรเวลาและบุคลากรของประเทศเป็นอย่างมาก คลังข้อมูล R&D Corpus นี้ปัจจุบันให้บริการอยู่ที่ URL ในเบื้องต้นนี้คลังข้อมูลสื่อประสมที่มีการกำกับข้อมูลไว้แล้วสำหรับงานวิจัย มีจำนวน ๖ ประเภทข้อมูล ได้แก่คลังข้อความไทย-อังกฤษ (Thai-English Text Corpus) สำหรับงานวิจัยด้านการประมวลผลภาษาธรรมชาติ (Natural Language Processing : NLP) ส่วนงานการตัดคำไทยและการแยกประโยคไทย คลังศัพท์ไทย-อังกฤษ (Thai-English Dictionary Corpus) สำหรับค้นหาการสะกดและการอ่านของคำศัพท์ไทยคลังเสียงพูดไทย (Thai Speech Corpus) สำหรับงานวิจัย Thai Speech Recognition และ Thai Speech Synthesis คลังข้อมูลภาพตัวอักษร (Thai-English Character Image Corpus) สำหรับงานวิจัยการรู้จำตัวอักษรไทย (Thai Optical Character Recognition : Thai OCR)คลังรูปร่างสามมิติคนไทย (Thai 3D Body Model Corpus) สำหรับงานวิจัยด้านอุตสาหกรรมแฟชั่น สิ่งทอ และสุขภาพ (e-Health) คลังข้อมูลภาพจราจรจากกล้อง NECTEC CAM และ Traffy Social Eye สำหรับงานวิจัยด้านคมนาคม
สำหรับกลุ่มเป้าหมายที่คาดว่าจะได้รับประโยชน์จากโครงการนี้ประกอบด้วย กลุ่มอุตสาหกรรมซอฟต์แวร์ โดยผู้ประกอบการด้านการพัฒนาซอฟต์แวร์ประมวลผลภาษาไทยและดิจิทัลคอนเทนท์ไทย ซึ่งต้องการข้อมูลกำกับขนาดใหญ่ในการพัฒนา, หน่วยงานการศึกษาและบริษัทเอกชน ผู้ดำเนินการวิจัยและพัฒนาเทคโนโลยีการประมวลผลภาษาไทยขั้นสูง เช่น การสืบค้นข้อความภาษาไทย ระบบสังเคราะห์เสียงพูดภาษาไทย และระบบแปลภาษาไทยอัตโนมัติ, สถาบันวิศวกรรมฟื้นฟูสมรรถภาพและเทคโนโลยีสิ่งอำนวยความสะดวก สามารถนำมาตรฐานกลางของภาษาไทยนี้ไปประยุกต์ใช้เพื่อคนพิการและผู้มีปัญหาในการเรียนรู้ได้ และปัจจุบันก็ได้ใช้งานจริงใน “โครงการพัฒนาเครื่องมือเพื่อช่วยการอ่าน การเขียน กระบวนการคิดและคำนวณ สำหรับบุคคลที่มีปัญหาทางการเรียนรู้”, หน่วยงานการศึกษาและบริษัทเอกชน ผู้ดำเนินการวิจัยและพัฒนาเทคโนโลยีเพื่ออุตสาหกรรมแฟชั่น สิ่งทอ, หน่วยงานการศึกษาและบริษัทเอกชน ผู้ดำเนินการวิจัยและพัฒนาเทคโนโลยีด้านการจราจรของประเทศไทย
ผู้สนใจสามารถดาวน์โหลดข้อมูลได้ที่ http://www.nectec.or.th/corpus/
สอบถามข้อมูลเพิ่มเติมได้ที่ ดร. จุฬารัตน์ ตันประเสริฐ ผู้อำนวยการหน่วยวิจัยวิทยาการสารสนเทศ ศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ e-Mail : chularat.tanprasert@nectec.or.th
โทร : ๐๒-๕๖๔๖๙๐๐ ต่อ ๒๒๒๔ โทรสาร : ๐๒-๕๖๔๖๗๗๒