Wednesday, September 06, 2006

Bayesian Theorem

簡單來說,貝氏定理是結合事前機率與條件機率,導出事後機率的過程。
Wike的解釋: here

pattern recognition

1. 張智星: 資料分群與樣式辨認
2. Wiki: 名詞解釋

Pattern recognition aims to classify data (patterns) based on either a priori knowledge or on statistical information extracted from the patterns. (定義pattern)The patterns to be classified are usually groups of measurements or observations, defining points in an appropriate multidimensional space.

(一個完整的樣式辨認系統應有的內容)
A complete pattern recognition system consists of a sensor that gathers the observations to be classified or described; a (特徵截取)feature extraction mechanism that computes numeric or symbolic information from the observations; and a (分類器)classification or description scheme that does the actual job of classifying or describing observations, relying on the extracted features.

常見字

iteration (n.) 重覆
stroke 筆劃
multi-expert strategy 多專家決策

Monday, September 04, 2006

今天的進度

弄了三天.. 終於成功寫出 Zhang-and-Suen 的 thining algorithm 了
發現處理後的雜訊還蠻多的, 當然也跟手寫字元的大小和有關

首先, 用直接用滑鼠在電腦上寫的字來進行 thining (用黃智群學長的程式寫的字)
結果其線條較直, 雜訊不多, 不過筆劃和筆劃交連的地方還是會有分叉的情形
之後用佩君和我的手寫字, 掃描到電腦後, 存成灰階的bitmap來進行 thining (掃描後的手寫字)

thining 前的影像分成兩種:
(1) 掃描後的不經縮放的手寫字, 存成 100x100 或120x120 pixel的大小
(2) 將手寫字放大至 300x300 pixel
結果, 兩種影像產生的 skeleton 很相似
不過比起直接在電腦上的手寫字, 掃描後再經 thin 的手寫字:
a) 雜訊較多,
b) 筆劃連結處的分叉較明顯,
c) 筆劃線段較為扭曲,
d) hairy problem 有出現
e) 太近的筆劃其 skeleton 會連在一起

之後希望能多找人來寫字, 然後從中挑出文字較具個性化的人, 做為手寫字的樣本來源, 使用這些人的文字來做分析, 以建立測試的手寫文字資料庫 (因為不知道如何能使用現成的手寫字資料庫), 希望用簽字筆來輸寫文字, 因為其文字較粗, 容易取得較佳的 skeleton.