WordPiece는 구글의 subword 알고리즘. 2012년 일본어/한국어 음성 검색용으로 개발됐고, BERT가 유명하게 만들었지. BPE처럼 bottom-up 병합인데, 병합 기준이 달라.
가장 빈번한 쌍을 병합하는 게 아니라, unigram 언어 모델 하에서 학습 데이터의 likelihood를 최대화하는 쌍을 병합해. 구체적으론 count(ab) / (count(a) × count(b))가 최대인 (a, b) 선택. 그래서 단순한 문자 공기 빈도보다 형태소 경계를 잡는 경향이 있어.
출력은 continuation piece에 ## 접두어를 붙여. 그래서 "unbelievable"이 ['un', '##believ', '##able']이 돼. 역토큰화는 정확 — continuation piece의 ## 떼고 이어붙이면 원래 단어.