[검색 알고리즘] TF/IDF

원문보기: http://cafe.naver.com/peternara.cafe?iframe_url=/ArticleRead.nhn%3Farticleid=3

TF( Term Frequency )
문서안에 존재하는 단어들의 빈도를 나타낸다.

A문서안에 Process라는 단어가 10 존재 한다면 빈도는 10이다.

명사를 추출해야하는데 Stemming, Stop알고리즘을 적용한후 TF를 적용해야 한다.

TF ij = Frequency ij / MAX( Frequency ij )

IDF( Inverse Term Frequency )
공통으로 포함된 단어에 대해, 빈도가 낮은 단어에 대해 높은 갚으로 전환하기 위한 방법이다.

각 문서에 포함되어있는 단어에 대한 tf * idf값을 구해야 한다.

사용자 삽입 이미지

완전 내멋대로 해석하기..
자바로 구현을 해봐야 하는데.;.. 문제는 아직 수학공식이 잘 이해가 안된다는거....ㅠ ㅠ

예제 인,아웃풋이라도 본다면 구현하기가 더 쉬울텐데..

아무것도 없이 구현 할려니 힘드네..;;;

'MISCELLANEOUSNESS' 카테고리의 다른 글

[검색 알고리즘] Stemming 알고리즘 (0)	2007.09.22
[JAVA] ServerSocket & Socket (0)	2007.09.20
Visual C++.net 2005 에서 MFC 작성 컴파일 오류.. (0)	2007.09.19

회색뿔의 취미 생활.

[검색 알고리즘] TF/IDF

'MISCELLANEOUSNESS' 카테고리의 다른 글

티스토리툴바

[검색 알고리즘] TF/IDF

'MISCELLANEOUSNESS' 카테고리의 다른 글

관련글

티스토리툴바