วันอาทิตย์ที่ 22 ธันวาคม พ.ศ. 2562

ASR


"แล้ว ASR คืออะไร"
   ASR ย่อมาจาก Automatic Speech Recognition หรือเรียกภาษาไทยว่า เทคโนโลยีรู้จำด้วยเสียง
เพื่อให้คอมพิวเตอร์เข้าใจว่าที่เราพูดไปนั้นคือคำว่าอะไรนั่นเอง ตัวอย่างตามวีดีโอด้านล่างครับ




จากวีดีโอจะเห็นว่าจะเป็นการทำ ASR เพื่อให้คอมพิวเตอร์เข้าใจว่าถ้าพูดว่า "โดด" คอมจะเข้าใจว่าโอเคให้ ไดโนเสาร์กระโดด แต่ถ้าพูดว่า "หมอบ" คอมจะเข้าใจว่าให้ไดโนเสาร์หมอบ ซึ่งจะเห็นว่าในขั้นตอนการทำนั้นจำเป็นทีจะต้อง Train คอมให้เข้าใจคำว่าโดด กับหมอบก่อน โดยในตัวอย่างวีดีโอจะทำการนำไฟล์เสียงหมอบและไฟล์เสียงโดดทำการ Train ด้วย Model ที่ชื่อว่า Hidden Markov Model
เพื่อทำการรู้จำเสียง ซึ่งหากใครสนใจโคดหรือหลักการทำงานสามารถโหลดได้ดังนี้ครับ

Source code linkhttps://github.com/CakeNuthep/ASR-COMMAND

หลักการทำงาน
จะเป็นวีดีโอการสอนของอาจารย์ที่จุฬาลงกรณ์มหาวิทยาลัย ดังนี้ครับ

2110432 ASR L1 Introduction




2110432 ASR L2 Speech Signal Fundamentals I



2110432 ASR L3 Speech Signal Fundamentals II



2110432 ASR L4 Speech Production



2110432 ASR L5 Spectrogram Analysis 1



2110432 ASR L6 Spectrogram Analysis 2



2110432 ASR L7 AM Part I (feature extraction and DTW)



2110432 ASR L8 AM Part II (HMM) and LM



2110432 ASR L9-1 Docker tutorial



2110432 ASR L9-2 Class and Topic Language models, Lexicon



2110432 ASR L10 FST, Decoder, and Kaldi Demo



2110432 ASR L11 Deep learning and ASR



2110432 ASR L12 Various topics in ASR (CTC, VAD, Noise robustness, Speaker recognition)