본문 바로가기

머신러닝, 딥러닝

(3)
랭체인 활용해서 간단한 RAG 구현 및 테스트 웹 페이지를 Context 삼아서 유저의 질문에 답하는 챗봇을 구현해보자. 과정은 다음과 같다.1. 대상 웹 페이지 크롤링2. 적절한 사이즈로 잘라서 Docs 만들기 (chunks들 만들기)3. 유저 질문 받기4. 유저 질문 기반으로 VectorDB 검색 (docs에서 가장 코사인 유사도 높은 chunk가 Context로 선택된다.)5. 최종 Prompt 생성 = 사전 Prompt + Context + 유저 질문6. 답변 대상으로는 해당 페이지를 사용하였다. (https://lilianweng.github.io/posts/2023-06-23-agent/) LLM Powered Autonomous AgentsBuilding agents with LLM (large language model) as its ..
GPT-3의 1750억 파라미터는 대체 무슨 의미일까? AI 모델에 대한 기사를 보다보면 OOO 모델은 파라미터가 몇백억 개네, 몇천억 개네.. 하는 내용을 볼 수 있다. OpenAI의 GPT-3는 1750억 개의 파라미터, 자랑스러운 한국의 하이퍼클로바X는 820억 개의 파라미터를 지녔다고 한다.  근데 파라미터가 대체 무슨 뜻일까? 처음에는 '학습한 데이터의 수인가?' 라고 생각했지만 그것도 아니고.. 뇌에 비유해서 시냅스 연결 갯수라고 표현하는 경우도 있지만 다소 추상적으로 느껴진다.  그래서 내 나름대로 직관적 이해(여전히 추상적이나 비교적 덜 추상적인)와 조금은 더 현실에 가까운 이해를 해보았다.(일부 부정확한 내용이 있을 수 있습니다) 1. 직관적 이해1750억 개의 다이얼을 정밀하게 조절해서 세상을 학습하고, 표현할 수 있다.수를 확 줄여보면 직..
Perceptron 부터 Self-Attention 까지 요약 Perceptron: 선형 모델 → XOR 문제 해결 불가.MLP: 은닉층 추가로 비선형 문제 해결 → 시계열 데이터 처리 불가.RNN: 시계열 데이터 처리 가능 → 장기 의존성 문제.LSTM: RNN 개선 → 병렬 처리 불가.Attention Mechanism: RNN/LSTM 강화 → 순차적 처리 문제는 여전.Self-Attention (Transformer): 병렬 처리와 입력 간 관계 학습의 완성형 → 현재 딥러닝 모델의 중심. 1. Perceptron (1958)단순한 선형 모델등장배경: 초기 인공지능 연구에서 "컴퓨터가 사람처럼 학습할 수 있을까?"라는 질문에서 시작.구조: 입력(feature)들을 가중치(weight)와 곱한 후, 결과를 합산하고, 활성화 함수를 통해 이진 출력(예: 0 또는..