본문 바로가기

NLP15

[NLP] LLM에서 할루시네이션이 발생하는 이유 인공지능 챗봇은 일정 관리부터 고객 지원 제공까지 모든 것을 지원하면서 오늘날 우리 삶에 없어서는 안 될 존재가 되었습니다. 그러나 이와 같이 고도화되면서 '환각', 할루시네이션이라는 우려되는 문제가 대두되었습니다. LLM에서 할루시네이션은 챗봇이 부정확하거나 오해의 소지가 있거나 완전히 조작된 정보를 생성하는 경우를 의미합니다. 가상 비서에게 날씨에 대해 물어보면 한 번도 일어나지 않은 폭풍에 대한 오래되었거나 완전히 잘못된 정보를 제공하기 시작한다고 상상해 봅시다. 이는 흥미로울 수 있지만 의료 또는 법률 자문과 같은 중요한 영역에서는 이러한 환각이 심각한 결과를 초래할 수 있습니다. 따라서 LLM에서 할루시네이션이 발생하는 이유를 이해하는 것은 AI 챗봇의 신뢰성과 안전성을 높이는 데 필수적입니다... 2024. 11. 26.
[NLP] Transformer의 함수 model.generate() 파라미터 저번 포스팅에서는 LLM의 Prompt Engineering에 대해서 알아보았습니다. [NLP] LLM Prompt Engineering오랜만에 돌아왔습니다. 컨퍼런스하랴, 인턴생활하랴, 공모전하랴, 일본어 공부하랴 너무 현생이 바빠서 한 달 동안 블로그를 쓰지 못하였네요. 그래서 오랜만에 돌아왔으니 재미난 이야기를dangingsu.tistory.com 이번 포스팅에서는 말씀드린대로 Output Parameter, 즉 generate 함수 파라미터에 대해서 알아보도록 하겠습니다.1. Decoding Strategy일단 파라미터를 알아보기 전에 generate 함수가 어떤 원리로 단어 혹은 문장을 생성하는지에 대해 알아보겠습니다.1) Greedy Search 첫 번째로 Greedy Search 입니다. G.. 2024. 11. 25.
[NLP] LLM Prompt Engineering 오랜만에 돌아왔습니다. 컨퍼런스하랴, 인턴생활하랴, 공모전하랴, 일본어 공부하랴 너무 현생이 바빠서 한 달 동안 블로그를 쓰지 못하였네요. 그래서 오랜만에 돌아왔으니 재미난 이야기를 들고 왔습니다. 그것은 바로 프롬프트 엔지니어링!1. Prompt Engineering 이란? 프롬프트 엔지니어링은 생성형 인공 지능(생성형 AI) 솔루션을 안내하여 원하는 결과를 생성하는 프로세스입니다.(AWS 참조) 그렇다면 여기서 얘기하는 프롬프트란 무엇일까요? LLM에게 질문을 하거나 어떤 요구사항이 있을 때 이러한 텍스트 정보를 프롬프트라고 부릅니다. 저희는 생성형 AI (이미지, 동영상, 텍스트 등) 에게 프롬프트를 입력하고 생성형 AI는 사용자의 프롬프트를 받아 무언가를 생성하죠. 특히 저는 주변에서 NLP의 남.. 2024. 11. 19.
[NLP] Korean LLM Leaderboard 오늘은 프로젝트 얘기는 아니고 인턴생활하면서 여러 Korean LLM을 다뤄봤는데 제가 Prompt를 잘 입력하지 못해서 그런걸까요.. 성능이 그다지 좋지 않은 걸 너무 많이 봐서 어떤 한국어 LLM이 좋은 성능을 가졌는지 알아보던 도중 업스테이지에서 만든 Open Ko LLM LeaderBoard를 발견해서 공유 및 정리하고자 포스팅을 작성합니다! 그래서 아마 이번 포스팅은 제 취향이 100% 들어간 LLM Review라고 생각해주시면 좋을 것 같습니다. ㅎㅎ  Open Ko-LLM Leaderboard - a Hugging Face Space by upstage huggingface.co 1. BenchMark 소개위 사이트에 접속하면 아래와 같은 페이지가 나옵니다.다 영어로 작성되어 있어서 복잡해 .. 2024. 10. 16.
[NLP] Survey of Chatbot, Persona 1. Personality, Persona, Profile LLM(Large Language Model)와 같은 챗봇 유형의 모델들을 Conversational Agent라고 편하게 CA라고 부르기도 합니다. 그런데 이러한 CA가 답변을 생성하는데 있어 Personality가 중요한 요소라는 사실! 알고 계셨나요?? (일단 저는 몰랐답니다..하하) 왜 CA에서 Personality가 중요한가??CA가 특정 성격이나 역할을 부여받는다면 인간과 대화한다기보다 소통하는 느낌을 받는 경향CA가 고유한 성격이나 스타일을 가짐으로써 같은 질문에 대해서도 다양한 방식으로 반응해 CA를 더 독창적이고 매력적이게 할 수 있고 다양한 사용자 요구에 맞출 수 있음CA와 사용자가 더 오래 대화할 수 있도록 유지할 수 있음 2.. 2024. 9. 4.
[NLP] NLP Task Review, 감정분석 이번에 인사이드아웃 2가 새로 개봉되었다. 그래서 오늘 포스팅은 감정에 대해서 얘기해보려고 한다. NLP Task 중 하나인 감정분석. 컴퓨터가 인간의 언어, 자연어를 이해하기 시작하면서 필요로 되는 능력 중 하나는 감정분석이다. 제품 혹은 서비스에 대한 리뷰, 피드백 등이 수백만 가지 이상의 데이터일텐데 이를 하나하나 확인하고 조사하는 것은 매우 비효율적이며 할 수 있는 일인지조차 모르겠다. 여기서 감정분석은 사용자의 의견, 리뷰, 피드백 등에서 인간의 감정을 파악해 기업이나 개발자가 소비자의 반응을 빠르고 정확하게 이해하고 서비스나 제품을 개선할 수 있도록 돕는다. 이러한 시장 동향 파악, 비즈니스 의사결정 과정에서 중요한 역할을 한다.감정분석 Task에 적합한 언어 모델많은 언어 모델이 감정분석 T.. 2024. 7. 11.
[NLP] Similarity, 문서 유사도 측정 검색 엔진, 추천시스템 등 굉장히 다양한 분야의 데이터에서 문서 유사도 개념은 중요하다.하지만 컴퓨터는 자연어, 즉 텍스트 데이터를 이해하지 못한다.때문에 벡터 표현으로 변형된 데이터를 컴퓨터가 인식하게 되는데 이 때 우리는 이 벡터 표현을 가지고 유사도를 측정할 수 있다.어떤 방법으로 어떻게 측정할 수 있는지 이제 한 번 알아보자. Document Term Matrix (DTM) 다음 예시와 같이 문서 4개가 있을 때 각 단어가 몇 개 들어 있는지에 대한 행렬을 나타낼 수 있다.이를 DTM이라고 부른다. 과일이길고노란먹고바나나사과싶은저는좋아요문서1000101100문서2000110100문서3011020000문서4100000011 그리고 이러한 행렬이 있을 때 우리는 유사도를 구할 수 있는데 이번 포스팅에.. 2024. 7. 6.
[NLP] Text Data Preprocessing 데이터 직무에 있는 모든 사람들은 데이터를 잘 활용할 수 있도록 전처리, 후처리 등 가공해야 할 일이 많다.가장 일반적인 전처리 기법들이라고 한다면1. 결측치 처리2. 이상치 처리등이 있겠으나, 오늘은 데이터 중 텍스트 데이터에 집중해서 텍스트 데이터 전처리 기법에 대해 얘기해보려고 한다. 자연어 (Natural Language)텍스트 데이터, 즉 사람이 사용하는 말은 '문자'로 구성되어 있고 단어나 문장 등을 생성하는 방식이다.하지만 컴퓨터는 자연어 형식을 이해하지 못하기 때문에 우리는 텍스트 데이터를 벡터 형식으로 바꿔줄 필요가 있다.이를 어떻게 구체적으로 하는지 알아보자.텍스트 데이터 전처리 과정전처리 기법의미Tokenization, 토큰화텍스트 데이터를 '토큰'으로 쪼개는 작업Pos Tagging.. 2024. 7. 2.
728x90
반응형