본문 바로가기

토큰화3

[NLP] Text Data Preprocessing 데이터 직무에 있는 모든 사람들은 데이터를 잘 활용할 수 있도록 전처리, 후처리 등 가공해야 할 일이 많다.가장 일반적인 전처리 기법들이라고 한다면1. 결측치 처리2. 이상치 처리등이 있겠으나, 오늘은 데이터 중 텍스트 데이터에 집중해서 텍스트 데이터 전처리 기법에 대해 얘기해보려고 한다.자연어 (Natural Language)텍스트 데이터, 즉 사람이 사용하는 말은 '문자'로 구성되어 있고 단어나 문장 등을 생성하는 방식이다.하지만 컴퓨터는 자연어 형식을 이해하지 못하기 때문에 우리는 텍스트 데이터를 벡터 형식으로 바꿔줄 필요가 있다.이를 어떻게 구체적으로 하는지 알아보자.텍스트 데이터 전처리 과정전처리 기법의미Tokenization, 토큰화텍스트 데이터를 '토큰'으로 쪼개는 작업Pos Tagging,.. 2024. 7. 2.
[NLP] 자연어처리 토큰화작업 2, 하위 단어 토큰화 하위 단어 토큰화자연어 처리에서 형태소 분석은 중요한 전처리 과정 중 하나입니다. 컴퓨터가 자연어를 인간이 이해하는 방식과 비슷하게 처리할 수 있도록 하기 위해서는 형태소 단위의 토큰화가 효과적인 방법입니다. 그러나 언어는 시간이 지남에 따라 변화하고 새로운 단어나 표현이 등장하며 더 이상 사용되지 않는 단어나 표현도 생깁니다. 현대의 일상 언어에서는 맞춤법이나 띄어쓰기가 엄격하게 지켜지지 않는 경우가 많고 형태소 분석기의 취약점인 신조어나 고유어 등이 빈번하게 생겨납니다. 외래어, 띄어쓰기 오류, 오탈자 등이 있는 문장을 기존 형태소 분석기로 토큰화하면 다음과 같은 결과가 나타납니다.원문 : 시보리도 짱짱하고 허리도 어벙하지 않고 조아효결과 : ['시', '보리', '도', '짱짱하고', '허리', '.. 2024. 3. 13.
[NLP] 자연어처리 토큰화작업(KoNLPy, NLTK, SpaCy) 자연어 및 자연어 처리자연어(National Language)는 자연 언어라고도 부르며, 인공적으로 만들어진 프로그래밍 언어와 다르게 사람들이 쓰는 언어 활동을 위해 자연히 만들어진 언어를 의미합니다. 자연어 처리(Natural Language Processing, NLP)는 컴퓨터가 인간의 언어를 이해하고 해석 및 생성하기 위한 기술을 의미합니다. 자연어 처리는 인공지능의 하위 분야로 컴퓨터가 인간과 유사한 방식으로 인간의 언어를 이해하고 처리하는 것이 주요 목표 중 하나입니다. 인간 언어의 구조, 의미, 맥락을 분석하고 이해할 수 있는 알고리즘과 모델을 개발합니다. 이러한 모델을 개발하기 위해서는 다음과 같은 문제가 해결되어야 하는데모호성(Ambiguity) : 인간의 언어는 단어와 구가 사용되는 맥.. 2024. 3. 7.