3. 머신러닝

3.1. AI(인공지능)

인공지능의 시초는 튜링테스트쯤 된다. 인간처럼 말할 수 있다면 기계라 해도 사람이라 할 수 있다. 이를 튜링테스트를 한다고 한다. 인공지능은 강인공지능과 약인공지능으로 나눌 수 있다. 약인공지능은 특정한 상황에 맞춰 판단할 수 있는 지능을 뜻한다.

3.2. ML(기계학습)

머신러닝은 단순히 기계가 학습을 하는것을 뜻한다. 이는 약인공지능에 속한다. 기계학습은 데이터 마이닝과 혼용되어 사용되고 있다. 데이터 마이닝은 Data 속에 숨겨진 의미있는 직관을 도출하는것을 뜻한다.

머신러닝은 지도학습, 비지도학습, 하이브리드 3가지로 나뉠 수 있다. 지도학습 은 분류해놓은 데이터를 이용한 학습이다. 하지만 분류해놓은 자료에 대한 조사가 필요하다. 즉 각 자료에 대한 레이블링이 필요하다. 레이블링을 하지않고 자율학습 후 레이블과 비교하는 방식으로 검증을 할 수 있다.

3.3. 클러스터링

알고리즘의 종류에는 K-Means, Hierarchical, Grid, Density base 등이 있다.

Hierarchical은 실제 데이터를 Centroid로 둘 수 있는 클러스터링 알고리즘이다. 예를들어 ABCDEFGHI라는 데이터가 있으면 각 데이터 끼리 가까운 것을 찾은 후 (N^2의 시간복잡도) 계속해서 반복하여 군집의 개수를 줄여나가는 방식이다.

Grid는 군집자체가 그리드의 하나의 칸이라 할 수 있다. 이 칸들을 합칠 수도 있다.

Density base는 원이 있고 반지름, 원안의 데이터의 최소 개수가 주어지고 클러스터를 만드는 방법이다.

K-Means 알고리즘을 이용해 K개의 군집을 만드는 것을 말한다. 군집 알고리즘 내에서 유클리디안 거리, 맨하탄 거리를 사용한다. 하짐나 거리를 구할때 글자가 포함되어 있다면 거리를 구하기 어렵다. 따라서 데이터중 Numeric은 이미 숫자라 관계없고 Nominal은 다른 공식을 제시해야한다.

3.4. 베이스, 베이지안 정리

스팸 필터는 정상 메일에서 대출 20%을 볼 수 있었고 스팸 메일에서 대출의 80%를 대출로 볼 수 있다. 하나의 대출 메일이 나왔을 때 정상 메일인지 스팸 메일인지 찾을 수 있다.

Naive 베이지안 정리을 사용하면 성인광고, 도박광고 같은 카테고리들에 속한 단어를 이용해 어디에 속할지 찾을 수 있다.

3.5. TF-IDF

TF-IDF 참조

TF(Text Frequency)는 특정문서에서 단어가 발생하는 빈도입니다. TF는 특정 단어수 / 전체 단어수 입니다. DF(Document Frequency)는 전체 문서중 단어가 발생한 빈도입니다. DF는 특정 단어를 포함한 문서 수 / 전체 문서 수 입니다. TF-IDF는 TF와 DF의 역수를 곱한 값을 뜻한다. 이 단어가 이 문서를 얼마나 대표하는지 나타내는 통계치다.