본문 바로가기

자연어처리11

[논문리뷰] BERT 자, 오늘은 X:AI Seminar 2024에서 진행한 BERT 논문 리뷰를 가져왔습니다.해당 논문은 2019년에 발표되어 ELMO, GPT-1의 모델과 비교를 하면서 얘기를 시사하고 있습니다. 논문 : BERT, Pre-training of Deep Bidirectional Transformers for Language Understanding저자 : Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova[1]  IntroductionBERT는 Bidirectional Encoder Representations from Transformer의 약자로 트랜스포머 모델의 인코더 부분만을 사용해서 양방향으로 학습을 시킨 언어 모델입니다. 당시에 연구되었던.. 2024. 4. 30.
[NLP] 자연어처리 토큰화작업(KoNLPy, NLTK, SpaCy) 자연어 및 자연어 처리자연어(National Language)는 자연 언어라고도 부르며, 인공적으로 만들어진 프로그래밍 언어와 다르게 사람들이 쓰는 언어 활동을 위해 자연히 만들어진 언어를 의미합니다. 자연어 처리(Natural Language Processing, NLP)는 컴퓨터가 인간의 언어를 이해하고 해석 및 생성하기 위한 기술을 의미합니다. 자연어 처리는 인공지능의 하위 분야로 컴퓨터가 인간과 유사한 방식으로 인간의 언어를 이해하고 처리하는 것이 주요 목표 중 하나입니다. 인간 언어의 구조, 의미, 맥락을 분석하고 이해할 수 있는 알고리즘과 모델을 개발합니다. 이러한 모델을 개발하기 위해서는 다음과 같은 문제가 해결되어야 하는데모호성(Ambiguity) : 인간의 언어는 단어와 구가 사용되는 맥.. 2024. 3. 7.
[NLP] 파이토치(Pytorch)를 이용한 텍스트 데이터 증강 텍스트 데이터텍스트 데이터 증강은 문서 분류 및 요약, 문장 번역 등과 같은 자연어 처리 모델을 구성할 때 데이터세트의 크기를 쉽게 늘리기 위해서 사용되고, 텍스트 데이터 증강 방법은 크게 삽입, 삭제, 교체, 대체, 생성, 반의어, 맞춤법 교정, 역번역 등이 있습니다. 이번 포스팅에서는 자연어처리 데이터 증강(NLPAUG) 라이브러리를 활용해 텍스트 데이터 증강을 구현해볼 생각입니다. 자연어 처리 데이터 증강 라이브러리는 간단한 코드 구성으로도 데이터 증강을 적용할 수 있고, 문자, 단어, 문장삽입, 삭제, 대체 등 다양한 기능을 제공합니다. 또한 텍스트 데이터 외에 음성 데이터 증강도 지원합니다. 자연어 처리 데이터 증강 라이브러리는 다음과 같이 설치할 수 있습니다.!pip install numpy .. 2024. 2. 29.