"แล้ว ASR คืออะไร"
ASR ย่อมาจาก Automatic Speech Recognition หรือเรียกภาษาไทยว่า เทคโนโลยีรู้จำด้วยเสียงเพื่อให้คอมพิวเตอร์เข้าใจว่าที่เราพูดไปนั้นคือคำว่าอะไรนั่นเอง ตัวอย่างตามวีดีโอด้านล่างครับ
จากวีดีโอจะเห็นว่าจะเป็นการทำ ASR เพื่อให้คอมพิวเตอร์เข้าใจว่าถ้าพูดว่า "โดด" คอมจะเข้าใจว่าโอเคให้ ไดโนเสาร์กระโดด แต่ถ้าพูดว่า "หมอบ" คอมจะเข้าใจว่าให้ไดโนเสาร์หมอบ ซึ่งจะเห็นว่าในขั้นตอนการทำนั้นจำเป็นทีจะต้อง Train คอมให้เข้าใจคำว่าโดด กับหมอบก่อน โดยในตัวอย่างวีดีโอจะทำการนำไฟล์เสียงหมอบและไฟล์เสียงโดดทำการ Train ด้วย Model ที่ชื่อว่า Hidden Markov Model
เพื่อทำการรู้จำเสียง ซึ่งหากใครสนใจโคดหรือหลักการทำงานสามารถโหลดได้ดังนี้ครับ
Source code link: https://github.com/CakeNuthep/ASR-COMMAND
หลักการทำงาน
จะเป็นวีดีโอการสอนของอาจารย์ที่จุฬาลงกรณ์มหาวิทยาลัย ดังนี้ครับ
2110432 ASR L1 Introduction
2110432 ASR L2 Speech Signal Fundamentals I
2110432 ASR L3 Speech Signal Fundamentals II
2110432 ASR L4 Speech Production
2110432 ASR L5 Spectrogram Analysis 1
2110432 ASR L6 Spectrogram Analysis 2
2110432 ASR L7 AM Part I (feature extraction and DTW)
2110432 ASR L8 AM Part II (HMM) and LM
2110432 ASR L9-1 Docker tutorial
2110432 ASR L9-2 Class and Topic Language models, Lexicon
2110432 ASR L10 FST, Decoder, and Kaldi Demo
2110432 ASR L11 Deep learning and ASR
2110432 ASR L12 Various topics in ASR (CTC, VAD, Noise robustness, Speaker recognition)