萊恩Ryan's 生活筆記簿: KNN

2017年4月28日星期五

[R] ML4B 課堂重溫 - 淺談 KNN (K-th Nearest Neighbors) 算法

將今個星期二的 R Machine Learning 堂記錯成星期三，錯過最重要的最後一堂(哭)。原本想打得太慢的記錄可以等埋最後一堂。算了吧.... 當上一堂講了Regression model，第3堂開始講分類Classification的問題。從使用 KNN (K-th Nearest Neighbors) 算法，在Class套件中的knn() 開始，一路講了 Logistics regression 的 glm()、分類樹的rpart()、支持向量機（Support Vector Machine）的svm()，最後在垃圾郵件的分類時，提到為中文句子斷詞的JiebaR套件。

這種分類問題的簡單例子，例如你找來了100個男生的資料，包括資產、收入、樣貌、才華、談吐等評分。再找女生們去評定他是否「荀盤」。有了這組Training Set的數據，可以用來訓練你的電腦中的一個「荀盤分類器」。讓它透過學習這群女生的判斷結果，從而當有新一筆資料(男生)時，可以從他的「Package」判別他是否女生心目中的荀盤。又或者，找出要成為荀盤的條件，看看你....在哪方面可以改進改進。

How a Math Genius Hacked OkCupid to Find True Love

拿KNN 算法來解釋，這算法是利用特徵空間中"距離"最近的K個鄰居去預測目標（或者是你）的分類。例如，當相近的5個近鄰中有3個是＋，2個是－，就預測自己也是＋。就是一種物以類聚，人以群分的想法。當然這鄰居不是指在你生活圈子中身邊附近的人（但大概你們也有某些相似之處），而是考慮上面所收集的一組多維度的「Package」中各個因素的接近程度。

https://commons.wikimedia.org/wiki/File:KnnClassification.svg#/media/File:KnnClassification.svg

k=3：預測= ▲
k=5：預測= ■

Category

2017年4月28日 星期五

[R] ML4B 課堂重溫 - 淺談 KNN (K-th Nearest Neighbors) 算法

2017年4月28日星期五