본문 바로가기
  • fishing...
  • eating...
MISCELLANEOUSNESS

[검색 알고리즘] TF/IDF

by 회색뿔 2007. 9. 21.


원문보기: http://cafe.naver.com/peternara.cafe?iframe_url=/ArticleRead.nhn%3Farticleid=3


TF( Term Frequency )
문서안에 존재하는 단어들의 빈도를 나타낸다.

A문서안에  Process라는 단어가 10 존재 한다면 빈도는 10이다.

명사를 추출해야하는데 Stemming, Stop알고리즘을 적용한후 TF를 적용해야 한다.

TF ij = Frequency ij / MAX( Frequency ij )


IDF( Inverse Term Frequency )
공통으로 포함된 단어에 대해, 빈도가 낮은 단어에 대해 높은 갚으로 전환하기 위한 방법이다.



각 문서에 포함되어있는 단어에 대한 tf * idf값을 구해야 한다.

사용자 삽입 이미지




완전 내멋대로 해석하기..
자바로 구현을 해봐야 하는데.;.. 문제는 아직 수학공식이 잘 이해가 안된다는거....ㅠ ㅠ

예제 인,아웃풋이라도 본다면 구현하기가 더 쉬울텐데..

아무것도 없이 구현 할려니 힘드네..;;;