[NLP] 정규 표현식, Regular Expression
What is Regular Expression?특정한 문자의 패턴을 정의하는 방식특정한 규칙을 가진 문자열 탐색이메일 주소만 추출 (XXX@XXX.XXX)전화번호만 추출 ((XXX)-XXX-XXXX)자주 쓰이는 정규표현식 문법예시설명[abcde] 문자클래스 : []대괄호 안에 있는 문자들과 매치하라는 의미여러 개의 대괄호도 사용 가능 문자열에서 a, b, c, d, e와 매칭되는 부분 탐색[a-e] 하이픈(-)을 써서 범위 지정도 가능 문자열에서 a, b, c, d, e와 매칭되는 부분 탐색 메타 문자 : 원래 의미가 아닌 다른 용도로 사용되는 문자*, +, ?, {n}, {m, n} 등등“da.ce”Dot(.) : 줄바꿈 문자를 제외한 모든 문자와 매칭 (공백 포함) dance(O), damce(O)..
2024. 7. 1.
[NLP] 파이토치(Pytorch)를 이용한 텍스트 데이터 증강
텍스트 데이터 텍스트 데이터 증강은 문서 분류 및 요약, 문장 번역 등과 같은 자연어 처리 모델을 구성할 때 데이터세트의 크기를 쉽게 늘리기 위해서 사용되고, 텍스트 데이터 증강 방법은 크게 삽입, 삭제, 교체, 대체, 생성, 반의어, 맞춤법 교정, 역번역 등이 있습니다. 이번 포스팅에서는 자연어처리 데이터 증강(NLPAUG) 라이브러리를 활용해 텍스트 데이터 증강을 구현해볼 생각입니다. 자연어 처리 데이터 증강 라이브러리는 간단한 코드 구성으로도 데이터 증강을 적용할 수 있고, 문자, 단어, 문장삽입, 삭제, 대체 등 다양한 기능을 제공합니다. 또한 텍스트 데이터 외에 음성 데이터 증강도 지원합니다. 자연어 처리 데이터 증강 라이브러리는 다음과 같이 설치할 수 있습니다.!pip install numpy..
2024. 2. 29.