유니그램1 [NLP] 자연어처리 토큰화작업 2, 하위 단어 토큰화 하위 단어 토큰화자연어 처리에서 형태소 분석은 중요한 전처리 과정 중 하나입니다. 컴퓨터가 자연어를 인간이 이해하는 방식과 비슷하게 처리할 수 있도록 하기 위해서는 형태소 단위의 토큰화가 효과적인 방법입니다. 그러나 언어는 시간이 지남에 따라 변화하고 새로운 단어나 표현이 등장하며 더 이상 사용되지 않는 단어나 표현도 생깁니다. 현대의 일상 언어에서는 맞춤법이나 띄어쓰기가 엄격하게 지켜지지 않는 경우가 많고 형태소 분석기의 취약점인 신조어나 고유어 등이 빈번하게 생겨납니다. 외래어, 띄어쓰기 오류, 오탈자 등이 있는 문장을 기존 형태소 분석기로 토큰화하면 다음과 같은 결과가 나타납니다.원문 : 시보리도 짱짱하고 허리도 어벙하지 않고 조아효결과 : ['시', '보리', '도', '짱짱하고', '허리', '.. 2024. 3. 13. 이전 1 다음 728x90 반응형