1. 왜 TF-IDF만으로는 부족할까?

검색 시스템이나 정보 검색(IR) 분야에서는 문서 내 특정 단어가 얼마나 중요한지를 판단해야 합니다.
가장 널리 알려진 기법이 바로 TF-IDF입니다.

하지만 TF-IDF만으로는 한계가 있습니다:

이러한 문제를 해결하기 위해 등장한 것이 바로 BM25입니다.

2. TF-IDF란? (개념과 수식)

한 문서에서 특정 단어가 얼마나 자주 등장하는지를 나타냅니다.

TF(t, d) = (문서 d에서 단어 t가 등장한 횟수) ÷ (문서 d의 전체 단어 수)

전체 문서 중 해당 단어를 포함하는 문서 수에 따라 단어의 희귀성을 반영합니다.

IDF(t) = log( (전체 문서 수) ÷ (1 + 단어 t가 등장한 문서 수) )

※ 여기서 1을 더하는 이유는 0으로 나누는 것을 방지하기 위함입니다.

최종적으로 TF와 IDF를 곱해, 문서 내 중요 단어를 추출합니다.

TF-IDF(t, d) = TF(t, d) × IDF(t)

요약:

문서 내에서 많이 등장하는 단어이면서,

전체 문서에서는 드물게 등장하는 단어에 높은 점수를 부여합니다.

❗ TF-IDF의 한계

단어가 많이 등장할수록 점수가 무한히 커질 수 있음

문서 길이에 따른 불공평한 점수 부여 가능

BM25는 "Best Matching 25"의 약자입니다.
(25는 여러 버전을 거쳐 가장 성능이 좋았던 버전 번호라고 알려져 있습니다.)

BM25는 TF-IDF의 문제를 보완해서:

Score(q, d) = Σ (각 단어 t에 대해)
IDF(t) × [ f(t, d) × (k1 + 1) ] ÷ [ f(t, d) + k1 × (1 - b + b × (문서 길이 ÷ 평균 문서 길이)) ]

여기서,

구분TF-IDFBM25

문서내용

문서 A	"고양이 고양이 고양이 귀엽다"
문서 B	"고양이 사랑스럽다"

TF-IDF 기준:

BM25 기준:

아무리 좋은 알고리즘이라 해도 한계는 존재합니다. BM25도 예외는 아닙니다.

BM25의 주요 한계점:

즉, BM25는 여전히 "단어 매칭" 중심의 방식입니다.

최근 정보 검색 시스템은 BM25를 넘어서기 위해 다양한 방향으로 발전하고 있습니다.

BM25 이후 발전 방향:

TF-IDF는 기본, BM25는 실전형 기준선, 그리고 미래는 신경망 기반 의미 검색이다!