본문 바로가기

파이썬9

[프로젝트] 티스토리 블로그 Web Crawling 오늘은 NLP Task 프로젝트에서 도움될만한 글을 적어보겠습니다. 네이버 블로그, 지식iN, 뉴스 등은 API로 크롤링할 수 있습니다.자세한 내용은 아래 링크 활용해주시면 감사하겠습니다.https://developers.naver.com/docs/serviceapi/search/blog/blog.md 블로그 - Search API" data-og-description="검색 > 블로그 블로그 검색 개요 개요 검색 API와 블로그 검색 개요 검색 API는 네이버 검색 결과를 뉴스, 백과사전, 블로그, 쇼핑, 웹 문서, 전문정보, 지식iN, 책, 카페글 등 분야별로 볼 수 있는 API" data-og-host="developers.naver.com" data-og-source-url="https://dev.. 2024. 9. 14.
[NLP] Text Data Preprocessing 데이터 직무에 있는 모든 사람들은 데이터를 잘 활용할 수 있도록 전처리, 후처리 등 가공해야 할 일이 많다.가장 일반적인 전처리 기법들이라고 한다면1. 결측치 처리2. 이상치 처리등이 있겠으나, 오늘은 데이터 중 텍스트 데이터에 집중해서 텍스트 데이터 전처리 기법에 대해 얘기해보려고 한다.자연어 (Natural Language)텍스트 데이터, 즉 사람이 사용하는 말은 '문자'로 구성되어 있고 단어나 문장 등을 생성하는 방식이다.하지만 컴퓨터는 자연어 형식을 이해하지 못하기 때문에 우리는 텍스트 데이터를 벡터 형식으로 바꿔줄 필요가 있다.이를 어떻게 구체적으로 하는지 알아보자.텍스트 데이터 전처리 과정전처리 기법의미Tokenization, 토큰화텍스트 데이터를 '토큰'으로 쪼개는 작업Pos Tagging,.. 2024. 7. 2.
[NLP] Web Scraping, BeautifulSoup What is Web Scraping??정의단일 웹페이지에서 원하는 정보를 추출하는 행위Web Crawling vs Web ScrapingWeb Crawling : URL을 탐색해 반복적으로 링크를 찾고 정보를 가져오는 과정으로, 특정 웹페이지를 목표로 하지 않음Web Scraping : 우리가 정한 특정 웹페이지에서 데이터를 추출Web Scraping Process1)  웹페이지 열기요청 (Request) : 클라이언트 혹은 사용자가 특정 서버에 리소스나 서비스를 요청하는 과정응답 (Response) : 요청한 사항에 대해 서버가 클라이언트 혹은 사용자에게 리소스나 서비스를 제공하는 과정2) Client서버에서 제공하는 서비스를 받는 입장데스크탑, 태블릿과 같은 장비일 수 있음Chrome, firefo.. 2024. 6. 27.
[논문리뷰] Sequence to Sequence Model 자, 오늘은 X:AI Seminar 2024에서 진행한 S2S 논문 리뷰를 가져왔습니다.해당 논문은 2014년에 발표되어 Attention, Transformer 등의 모델이 등장하기 이전의 논문이라는 배경 정도 짚고 가겠습니다.논문 : Sequence to Sequence Learning with Neural Networks저자 : Ilya Sutskever, Oriol Vinyals, Quoc V. Le ICLR 2014 출판[1] DNN 기반 모델의 한계전통적인 DNN 기반의 언어 모델에서는 번역이 다음과 같은 사진처럼 이루어집니다. 입력과 출력 차원의 크기가 같다고 가정하고 현재 예시에서는 그 차원이 T가 되겠죠. 원리를 좀 더 살펴보면 x1이라는 단어가 입력되고 h0의 첫 번째 hidden ve.. 2024. 3. 19.
[딥러닝] 밑바닥부터 시작하는 딥러닝 공부 3-2 : 행렬 곱연산과 신경망 구현 이번에 소개할 내용은 단층 퍼셉트론의 한계를 해결한 행렬곱연산과 신경망구현에 대한 이야기입니다.   저번 포스팅 내용은 신경망과 활성화함수에 대해서였습니다. 2024.01.31 - [Deep Learning] - [딥러닝] 밑바닥부터 시작하는 딥러닝 공부 3-1 : 신경망과 활성화 함수 [딥러닝] 밑바닥부터 시작하는 딥러닝 공부 3-1 : 신경망과 활성화 함수이번에 소개할 내용은 단층 퍼셉트론의 한계를 해결한 인공신경망과 활성화함수에 대한 이야기입니다. 저번 포스팅 내용은 퍼셉트론의 한계 및 다중 퍼셉트론에 대해서였습니다. 2024.01.24 - [Deepdangingsu.tistory.com1. 다차원 배열의 계산넘파이 패키지의 다차원 배열을 사용한 계산법을 활용하면 신경망을 구현할 때 효율적인 구현이.. 2024. 2. 11.
[딥러닝] 밑바닥부터 시작하는 딥러닝 공부 3-1 : 신경망과 활성화 함수 이번에 소개할 내용은 단층 퍼셉트론의 한계를 해결한 인공신경망과 활성화함수에 대한 이야기입니다. 저번 포스팅 내용은 퍼셉트론의 한계 및 다중 퍼셉트론에 대해서였습니다.2024.01.24 - [Deep Learning] - [딥러닝] 밑바닥부터 시작하는 딥러닝 공부 2-1 : 퍼셉트론의 한계 및 다중 퍼셉트론 [딥러닝] 밑바닥부터 시작하는 딥러닝 공부 2-1 : 퍼셉트론의 한계 및 다중 퍼셉트론이번에 소개할 내용은 밑시딥 2장의 뒷부분 퍼셉트론의 한계와 다중 퍼셉트론이다. 저번 내용은 퍼셉트론의 개념, AND, NAND, OR 게이트를 설명했다. 1. 이 3가지 논리 회로를 구현할 수 있었지만 배dangingsu.tistory.com1. 퍼셉트론에서 신경망으로인공신경망이란?신경망은 그 이름에서 알 수 있듯.. 2024. 1. 31.
[딥러닝] 밑바닥부터 시작하는 딥러닝 공부 2-2 : 퍼셉트론의 한계 및 다중 퍼셉트론 이번에 소개할 내용은 밑시딥 2장의 뒷부분 퍼셉트론의 한계와 다중 퍼셉트론이다.  저번 내용은 퍼셉트론의 개념, AND, NAND, OR 게이트를 설명했다. 1. 이 3가지 논리 회로를 구현할 수 있었지만 배타적 논리합이라는 XOR 게이트를 만들 경우에는 한계가 발생한다.XOR 게이트의 진리표어느 한쪽이 1일 때만 1을 출력한다.x1 (입력값)x2 (입력값)y (출력값)000101011110 이를 직선 형태의 퍼셉트론으로 구현하는 것은 불가능하다.즉, 저 4개의 점을 1개의 직선만으로 구분하는 것이 불가능하다는 의미이다.그렇다면 어떻게 해야 할까?아래에서 알아보자이미지 출처 : https://velog.io/@skyepodium/%ED%8D%BC%EC%85%89%ED%8A%B8%EB%A1%A0%EC%9D.. 2024. 1. 24.
[딥러닝] 밑바닥부터 시작하는 딥러닝 공부 1-2 : 시각화 이번에 소개할 내용은 밑시딥 1장의 뒤부분, "시각화"이다. 파이썬에서 사용되는 시각화 패키지는 크게 2가지 인데 첫 째는 Matplotlib(맷플롯립), 둘 째는 Seaborn(시본)이다.그래서 이 두 패키지에 대해 내용을 정리해보려고 한다. 시각화에 사용할 데이터는 타이타닉 데이터 타이타닉 데이터 - 많은 사람들이 알고 있는 데이터이기도 하고 범주형과 수치형 변수가 함께 섞여 있어서 시각화하기에 좋다고 판단. 1. Matplotlib 패키지파이썬의 Matplotlib 패키지는 데이터 시각화를 위한 강력한 도구로, 그래프, 차트, 플롯 등 다양한 형태의 시각화를 생성가능. 이를 통해 데이터를 이해하고 효과적으로 전달할 수 있다.Matplotlib의 주요 모듈 중 하나는 pyplot. pyplot은 MA.. 2024. 1. 12.