원문보기: http://cafe.naver.com/peternara.cafe?iframe_url=/ArticleRead.nhn%3Farticleid=3
TF( Term Frequency )
문서안에 존재하는 단어들의 빈도를 나타낸다.
A문서안에 Process라는 단어가 10 존재 한다면 빈도는 10이다.
명사를 추출해야하는데 Stemming, Stop알고리즘을 적용한후 TF를 적용해야 한다.
TF ij = Frequency ij / MAX( Frequency ij )
IDF( Inverse Term Frequency )
공통으로 포함된 단어에 대해, 빈도가 낮은 단어에 대해 높은 갚으로 전환하기 위한 방법이다.
각 문서에 포함되어있는 단어에 대한 tf * idf값을 구해야 한다.
완전 내멋대로 해석하기..
자바로 구현을 해봐야 하는데.;.. 문제는 아직 수학공식이 잘 이해가 안된다는거....ㅠ ㅠ
예제 인,아웃풋이라도 본다면 구현하기가 더 쉬울텐데..
아무것도 없이 구현 할려니 힘드네..;;;
'MISCELLANEOUSNESS' 카테고리의 다른 글
[검색 알고리즘] Stemming 알고리즘 (0) | 2007.09.22 |
---|---|
[JAVA] ServerSocket & Socket (0) | 2007.09.20 |
Visual C++.net 2005 에서 MFC 작성 컴파일 오류.. (0) | 2007.09.19 |