본문 바로가기

전체 글41

[NLP] Web Scraping, BeautifulSoup What is Web Scraping??정의단일 웹페이지에서 원하는 정보를 추출하는 행위Web Crawling vs Web ScrapingWeb Crawling : URL을 탐색해 반복적으로 링크를 찾고 정보를 가져오는 과정으로, 특정 웹페이지를 목표로 하지 않음Web Scraping : 우리가 정한 특정 웹페이지에서 데이터를 추출Web Scraping Process1)  웹페이지 열기요청 (Request) : 클라이언트 혹은 사용자가 특정 서버에 리소스나 서비스를 요청하는 과정응답 (Response) : 요청한 사항에 대해 서버가 클라이언트 혹은 사용자에게 리소스나 서비스를 제공하는 과정2) Client서버에서 제공하는 서비스를 받는 입장데스크탑, 태블릿과 같은 장비일 수 있음Chrome, firefo.. 2024. 6. 27.
[논문리뷰] Transformer 오늘은 Transformer 논문 리뷰를 가져왔습니다.해당 논문은 2017년에 발표된 논문입니다. Attention Is All You Need저자 : Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin[1] Introduction1-1. 기존 Seq2Seq 모델의 한계점 기존의 인코더 - 디코더 구조 : 인코더에서 고정된 크기의 context vector를 생성해 디코더의 입력으로 넣어주는 형식context vector를 만들다보니 인코더의 모든 소스 문장에 대한 정보가 압축되어 병목 현상이 발생하고 입력 문장 전체를 순서대로 받아야 하기 .. 2024. 6. 26.
[논문리뷰] MT-DNN 자, 오늘은 X:AI Seminar 2024에서 진행한 MT-DNN 논문 리뷰를 가져왔습니다.해당 논문은 2019년에 발표된 논문입니다. Multi-Task Deep Neural Networks for Natural Language Understanding저자 : Xiaodong Liu, Pengcheng He, Weizhu Chen, Jianfeng Gao [1] Introduction MT-DNN이란 Multi-Task Deep Neural Networks for Natural Language Understanding의 약자로 이름처럼 BERT 모델에  Multi-Task Learning을 수행해 성능을 개선한 모델입니다. MT-DNN은 다양한 Task의 Supervised Dataset을 활용해 학.. 2024. 5. 23.
[논문리뷰] BART 자, 오늘은 X:AI Seminar 2024에서 진행한 BART 논문 리뷰를 가져왔습니다.해당 논문은 2019년에 발표된 논문입니다. NLP 모델계의 중추 역할을 담당하고 있는 BERT와 GPT-1 의 두 모델의 각각 문제점을 짚고 이를 해결하려는 방향으로 BART 모델을 구현했다고 시사하고 있습니다. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension저자 : Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke .. 2024. 5. 15.
[논문리뷰] BERT 자, 오늘은 X:AI Seminar 2024에서 진행한 BERT 논문 리뷰를 가져왔습니다.해당 논문은 2019년에 발표되어 ELMO, GPT-1의 모델과 비교를 하면서 얘기를 시사하고 있습니다. 논문 : BERT, Pre-training of Deep Bidirectional Transformers for Language Understanding저자 : Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova[1]  IntroductionBERT는 Bidirectional Encoder Representations from Transformer의 약자로 트랜스포머 모델의 인코더 부분만을 사용해서 양방향으로 학습을 시킨 언어 모델입니다. 당시에 연구되었던.. 2024. 4. 30.
[논문리뷰] Sequence to Sequence Model 자, 오늘은 X:AI Seminar 2024에서 진행한 S2S 논문 리뷰를 가져왔습니다.해당 논문은 2014년에 발표되어 Attention, Transformer 등의 모델이 등장하기 이전의 논문이라는 배경 정도 짚고 가겠습니다.논문 : Sequence to Sequence Learning with Neural Networks저자 : Ilya Sutskever, Oriol Vinyals, Quoc V. Le ICLR 2014 출판[1] DNN 기반 모델의 한계전통적인 DNN 기반의 언어 모델에서는 번역이 다음과 같은 사진처럼 이루어집니다. 입력과 출력 차원의 크기가 같다고 가정하고 현재 예시에서는 그 차원이 T가 되겠죠. 원리를 좀 더 살펴보면 x1이라는 단어가 입력되고 h0의 첫 번째 hidden ve.. 2024. 3. 19.
[NLP] 자연어처리 토큰화작업 2, 하위 단어 토큰화 하위 단어 토큰화자연어 처리에서 형태소 분석은 중요한 전처리 과정 중 하나입니다. 컴퓨터가 자연어를 인간이 이해하는 방식과 비슷하게 처리할 수 있도록 하기 위해서는 형태소 단위의 토큰화가 효과적인 방법입니다. 그러나 언어는 시간이 지남에 따라 변화하고 새로운 단어나 표현이 등장하며 더 이상 사용되지 않는 단어나 표현도 생깁니다. 현대의 일상 언어에서는 맞춤법이나 띄어쓰기가 엄격하게 지켜지지 않는 경우가 많고 형태소 분석기의 취약점인 신조어나 고유어 등이 빈번하게 생겨납니다. 외래어, 띄어쓰기 오류, 오탈자 등이 있는 문장을 기존 형태소 분석기로 토큰화하면 다음과 같은 결과가 나타납니다.원문 : 시보리도 짱짱하고 허리도 어벙하지 않고 조아효결과 : ['시', '보리', '도', '짱짱하고', '허리', '.. 2024. 3. 13.
[NLP] 자연어처리 토큰화작업(KoNLPy, NLTK, SpaCy) 자연어 및 자연어 처리자연어(National Language)는 자연 언어라고도 부르며, 인공적으로 만들어진 프로그래밍 언어와 다르게 사람들이 쓰는 언어 활동을 위해 자연히 만들어진 언어를 의미합니다. 자연어 처리(Natural Language Processing, NLP)는 컴퓨터가 인간의 언어를 이해하고 해석 및 생성하기 위한 기술을 의미합니다. 자연어 처리는 인공지능의 하위 분야로 컴퓨터가 인간과 유사한 방식으로 인간의 언어를 이해하고 처리하는 것이 주요 목표 중 하나입니다. 인간 언어의 구조, 의미, 맥락을 분석하고 이해할 수 있는 알고리즘과 모델을 개발합니다. 이러한 모델을 개발하기 위해서는 다음과 같은 문제가 해결되어야 하는데모호성(Ambiguity) : 인간의 언어는 단어와 구가 사용되는 맥.. 2024. 3. 7.
[NLP] 파이토치(Pytorch)를 이용한 텍스트 데이터 증강 텍스트 데이터텍스트 데이터 증강은 문서 분류 및 요약, 문장 번역 등과 같은 자연어 처리 모델을 구성할 때 데이터세트의 크기를 쉽게 늘리기 위해서 사용되고, 텍스트 데이터 증강 방법은 크게 삽입, 삭제, 교체, 대체, 생성, 반의어, 맞춤법 교정, 역번역 등이 있습니다. 이번 포스팅에서는 자연어처리 데이터 증강(NLPAUG) 라이브러리를 활용해 텍스트 데이터 증강을 구현해볼 생각입니다. 자연어 처리 데이터 증강 라이브러리는 간단한 코드 구성으로도 데이터 증강을 적용할 수 있고, 문자, 단어, 문장삽입, 삭제, 대체 등 다양한 기능을 제공합니다. 또한 텍스트 데이터 외에 음성 데이터 증강도 지원합니다. 자연어 처리 데이터 증강 라이브러리는 다음과 같이 설치할 수 있습니다.!pip install numpy .. 2024. 2. 29.
[프로젝트] 데이콘 주관 도배하자 질의응답 처리 언어모델 개발 공모전 리뷰 이번에 학회 프로젝트로 데이콘에서 주관하는 도배하자 질의응답 처리 언어모델 개발 공모전에 참여하였다.프로젝트 발표는 끝났지만 아직 대회 종료일이 남아, 대회 종료일까지는 열심히 달릴 생각을 하고 있다. 1. 공모전 소개관련 : 알고리즘 / 언어 / LLM / MLOps / QA / Cosine Simiarity주제 : 도배 하자 질의 응답 AI 모델 개발주 : 한솔데코 AI상금 : 1000만 원기간 : 2024.01.29 ~ 2024.03.11배경 : 한솔데코는 인공지능(AI) 기술을 공동 주택 내 실내 마감재 분야에 접목시켜 혁신을 추진하고 있습니다. AI의 활용은 시트, 마루, 벽면, 도배와 같은 건축의 핵심 자재들의 품질 관리와 하자 판단 과정을 더욱 정교하고 효율적으로 만들어, 이러한 자재들의 관.. 2024. 2. 26.
[딥러닝] 밑바닥부터 시작하는 딥러닝 공부 3-2 : MNIST 손글씨 숫자 인식 및 구현 이번에 소개할 내용은 MNIST 손글씨 숫자 인식 및 구현입니다. 1. MNIST 데이터셋이번 포스팅에서 사용할 데이터셋은 MNIST 손글씨 숫자 이미지 집합입니다. MNIST는 기계학습 분야에서 매우 유명한 데이터셋으로 간단한 실험부터 논문으로 발표되는 연구까지 다양하게 활용되고 있습니다. 이미지 인식 혹은 기계학습 논문에서 실험용 데이터로 자주 등장하는 걸 볼 수 있습니다. MNIST 데이터셋은 아래와 같이 0 ~ 9 까지의 숫자 이미지로 구성됩니다. TRAIN 이미지가 60,000장, TEST 이미지가 10,000장으로 구성되어 있습니다. 일반적으로 이 TRAIN 이미지들을 사용해 모델을 학습 후 학습 모델로 TEST 이미지를 얼마나 정확하게 분류하는 지를 평가합니다. MNIST 이미지 데이터는 2.. 2024. 2. 17.
[딥러닝] 밑바닥부터 시작하는 딥러닝 공부 3-2 : 행렬 곱연산과 신경망 구현 이번에 소개할 내용은 단층 퍼셉트론의 한계를 해결한 행렬곱연산과 신경망구현에 대한 이야기입니다.   저번 포스팅 내용은 신경망과 활성화함수에 대해서였습니다. 2024.01.31 - [Deep Learning] - [딥러닝] 밑바닥부터 시작하는 딥러닝 공부 3-1 : 신경망과 활성화 함수 [딥러닝] 밑바닥부터 시작하는 딥러닝 공부 3-1 : 신경망과 활성화 함수이번에 소개할 내용은 단층 퍼셉트론의 한계를 해결한 인공신경망과 활성화함수에 대한 이야기입니다. 저번 포스팅 내용은 퍼셉트론의 한계 및 다중 퍼셉트론에 대해서였습니다. 2024.01.24 - [Deepdangingsu.tistory.com1. 다차원 배열의 계산넘파이 패키지의 다차원 배열을 사용한 계산법을 활용하면 신경망을 구현할 때 효율적인 구현이.. 2024. 2. 11.