본문 바로가기

분류 전체보기52

[NLP] 정규 표현식, Regular Expression What is Regular Expression?특정한 문자의 패턴을 정의하는 방식특정한 규칙을 가진 문자열 탐색이메일 주소만 추출 (XXX@XXX.XXX)전화번호만 추출 ((XXX)-XXX-XXXX)자주 쓰이는 정규표현식 문법예시설명[abcde] 문자클래스 : []대괄호 안에 있는 문자들과 매치하라는 의미여러 개의 대괄호도 사용 가능 문자열에서 a, b, c, d, e와 매칭되는 부분 탐색[a-e] 하이픈(-)을 써서 범위 지정도 가능 문자열에서 a, b, c, d, e와 매칭되는 부분 탐색 메타 문자 : 원래 의미가 아닌 다른 용도로 사용되는 문자*, +, ?, {n}, {m, n} 등등“da.ce”Dot(.) : 줄바꿈 문자를 제외한 모든 문자와 매칭 (공백 포함) dance(O), damce(O).. 2024. 7. 1.
[NLP] API를 활용한 Web Crawling API를 활용한 Web CrawlingApplication Programming Interface (API)프로그램 간 데이터를 주고 받기 위한 방법레스토랑에서 점원과 같은 역할을 수행점원 : 손님에게 메뉴를 '요청'받고 이를 요리사에게 '요청' -> 요리사의 결과물을 전달API : 프로그램에게 데이터를 '요청'받고 이를 타 프로그램에 '요청' -> 데이터를 전달API가 가져야 할 내용요청방식GET, POST 등요청할 자료endpoint 등자료요청에 필요한 추가 정보검색 조건, api key 등Open API 개발자라면 누구나 무료로 사용 가능하도록 공개된 APIOpen API를 배포해 자사 서비스를 활용한 영역 확대자사의 영향력을 높일 수 있음(예시) API를 활용한 데이터 수집 - 공공데이터포털로그인.. 2024. 6. 29.
[NLP] Web Crawling, Selenium Dynamic Web Page정적 웹페이지서버에 미리 저장된 파일(HTML, JavaScript 등)이 그대로 전달되는 웹페이지보여지는 화면이 바뀌지 않음Client가 요청하면 페이지를 그대로 전송 (응답)누가, 언제 접속해도 동일한 내용을 보여줌 (서버에 저장된 데이터가 변경되지 않는다는 가정)동적 웹페이지서버에 있는 데이터를 스크립트에 의해 가공하여 전달하는 웹페이지보여지는 화면이 계속 바뀜Client의 요청을 해석하여 데이터를 가공해 전송 (응답)누가, 언제 접속하느냐에 따라 다른 내용을 보여줌Selenium을 활용한 동적 웹페이지 Crawling Selenium 패키지로 재벌집 막내아들 75화의 댓글 긁어오기## Selenium 패키지 Importfrom selenium import webdriv.. 2024. 6. 28.
[NLP] Web Scraping, BeautifulSoup What is Web Scraping??정의단일 웹페이지에서 원하는 정보를 추출하는 행위Web Crawling vs Web ScrapingWeb Crawling : URL을 탐색해 반복적으로 링크를 찾고 정보를 가져오는 과정으로, 특정 웹페이지를 목표로 하지 않음Web Scraping : 우리가 정한 특정 웹페이지에서 데이터를 추출Web Scraping Process1)  웹페이지 열기요청 (Request) : 클라이언트 혹은 사용자가 특정 서버에 리소스나 서비스를 요청하는 과정응답 (Response) : 요청한 사항에 대해 서버가 클라이언트 혹은 사용자에게 리소스나 서비스를 제공하는 과정2) Client서버에서 제공하는 서비스를 받는 입장데스크탑, 태블릿과 같은 장비일 수 있음Chrome, firefo.. 2024. 6. 27.
[논문리뷰] Transformer 논문 리뷰 오늘은 Transformer 논문 리뷰를 가져왔습니다. 해당 논문은 2017년에 발표된 논문입니다. Attention Is All You Need저자 : Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin[1] Introduction1-1. 기존 Seq2Seq 모델의 한계점 기존의 인코더 - 디코더 구조 : 인코더에서 고정된 크기의 context vector를 생성해 디코더의 입력으로 넣어주는 형식context vector를 만들다보니 인코더의 모든 소스 문장에 대한 정보가 압축되어 병목 현상이 발생하고 입력 문장 전체를 순서대로 받아야 하기.. 2024. 6. 26.
[논문리뷰] MT-DNN 논문 리뷰 자, 오늘은 X:AI Seminar 2024에서 진행한 MT-DNN 논문 리뷰를 가져왔습니다. 해당 논문은 2019년에 발표된 논문입니다. Multi-Task Deep Neural Networks for Natural Language Understanding저자 : Xiaodong Liu, Pengcheng He, Weizhu Chen, Jianfeng Gao [1] Introduction MT-DNN이란 Multi-Task Deep Neural Networks for Natural Language Understanding의 약자로 이름처럼 BERT 모델에  Multi-Task Learning을 수행해 성능을 개선한 모델입니다. MT-DNN은 다양한 Task의 Supervised Dataset을 활용해 .. 2024. 5. 23.
[논문리뷰] BART 논문 리뷰 자, 오늘은 X:AI Seminar 2024에서 진행한 BART 논문 리뷰를 가져왔습니다. 해당 논문은 2019년에 발표된 논문입니다. NLP 모델계의 중추 역할을 담당하고 있는 BERT와 GPT-1 의 두 모델의 각각 문제점을 짚고 이를 해결하려는 방향으로 BART 모델을 구현했다고 시사하고 있습니다. BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension저자 : Mike Lewis, Yinhan Liu, Naman Goyal, Marjan Ghazvininejad, Abdelrahman Mohamed, Omer Levy, Ves Stoyanov, Luke.. 2024. 5. 15.
[논문리뷰] BERT 논문 리뷰 자, 오늘은 X:AI Seminar 2024에서 진행한 BERT 논문 리뷰를 가져왔습니다.해당 논문은 2019년에 발표되어 ELMO, GPT-1의 모델과 비교를 하면서 얘기를 시사하고 있습니다. 논문 : BERT, Pre-training of Deep Bidirectional Transformers for Language Understanding저자 : Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova[1]  IntroductionBERT는 Bidirectional Encoder Representations from Transformer의 약자로 트랜스포머 모델의 인코더 부분만을 사용해서 양방향으로 학습을 시킨 언어 모델입니다. 당시에 연구되었던.. 2024. 4. 30.
728x90
반응형