본문 바로가기

ML2

[NLP] 파이토치(Pytorch)를 이용한 텍스트 데이터 증강 텍스트 데이터텍스트 데이터 증강은 문서 분류 및 요약, 문장 번역 등과 같은 자연어 처리 모델을 구성할 때 데이터세트의 크기를 쉽게 늘리기 위해서 사용되고, 텍스트 데이터 증강 방법은 크게 삽입, 삭제, 교체, 대체, 생성, 반의어, 맞춤법 교정, 역번역 등이 있습니다. 이번 포스팅에서는 자연어처리 데이터 증강(NLPAUG) 라이브러리를 활용해 텍스트 데이터 증강을 구현해볼 생각입니다. 자연어 처리 데이터 증강 라이브러리는 간단한 코드 구성으로도 데이터 증강을 적용할 수 있고, 문자, 단어, 문장삽입, 삭제, 대체 등 다양한 기능을 제공합니다. 또한 텍스트 데이터 외에 음성 데이터 증강도 지원합니다. 자연어 처리 데이터 증강 라이브러리는 다음과 같이 설치할 수 있습니다.!pip install numpy .. 2024. 2. 29.
[프로젝트] 데이콘 주관 도배하자 질의응답 처리 언어모델 개발 공모전 리뷰 이번에 학회 프로젝트로 데이콘에서 주관하는 도배하자 질의응답 처리 언어모델 개발 공모전에 참여하였다.프로젝트 발표는 끝났지만 아직 대회 종료일이 남아, 대회 종료일까지는 열심히 달릴 생각을 하고 있다. 1. 공모전 소개관련 : 알고리즘 / 언어 / LLM / MLOps / QA / Cosine Simiarity주제 : 도배 하자 질의 응답 AI 모델 개발주 : 한솔데코 AI상금 : 1000만 원기간 : 2024.01.29 ~ 2024.03.11배경 : 한솔데코는 인공지능(AI) 기술을 공동 주택 내 실내 마감재 분야에 접목시켜 혁신을 추진하고 있습니다. AI의 활용은 시트, 마루, 벽면, 도배와 같은 건축의 핵심 자재들의 품질 관리와 하자 판단 과정을 더욱 정교하고 효율적으로 만들어, 이러한 자재들의 관.. 2024. 2. 26.