본문 바로가기
728x90

IT 개발/AI10

[LLM] 텐서플로우(TensorFlow)란 텐서플로우는 Google에서 개발한 오픈소스 머신러닝 라이브러리입니다. 딥러닝 모델을 구축하고 학습시키는 데 필요한 다양한 도구와 기능을 제공합니다.텐서플로우라는 이름은 "텐서"와 "플로우"라는 두 단어를 합쳐서 만들어졌습니다.텐서(Tensor): 데이터를 표현하는 다차원 배열입니다. 텐서플로우는 텐서를 기본 데이터 구조로 사용하여 연산을 수행합니다.플로우(Flow): 데이터 흐름을 나타냅니다. 텐서플로우는 데이터 플로우 그래프를 사용하여 모델의 구조와 연산을 정의합니다.텐서플로우의 주요 기능텐서플로우는 다음과 같은 주요 기능을 제공합니다.다양한 딥러닝 모델 구축: 텐서플로우는 다양한 종류의 딥러닝 모델을 구축하는 데 필요한 도구와 API를 제공합니다. 이미지 분류, 자연어 처리, 음성 인식 등 다양한 .. 2025. 3. 3.
[LLM] 텐서 (tensor)란? LLM를 공부하는데 기초가 없는 상태에서 시작하다보니 용어부분에서 막히는 부분이 생겨하나씩 정리하고 있습니다.AI를 통해 AI를 학습 중입니다.  텐서는 쉽게 말해 다차원 배열입니다. 숫자들을 특정한 형태로 모아놓은 구조라고 생각하면 됩니다.숫자 하나만 있는 경우는 스칼라(0차원 텐서), 숫자들을 일렬로 나열한 경우는 벡터(1차원 텐서), 숫자들을 행과 열로 구성한 경우는 행렬(2차원 텐서)이라고 합니다. 텐서는 이러한 개념을 확장하여 3차원, 4차원, 또는 그 이상의 차원을 가질 수 있습니다.예시:스칼라: 5 (단일 숫자)벡터: [1, 2, 3] (숫자들의 1차원 배열)행렬: [[1, 2], [3, 4]] (숫자들의 2차원 배열)3차원 텐서: [[[1, 2], [3, 4]], [[5, 6], [7, 8.. 2025. 3. 3.
[LLM] 소프트맥스 (softmax) 소프트맥스(Softmax)는 딥러닝, 특히 분류 문제에서 널리 사용되는 함수입니다. 주로 모델의 출력층에서 사용되어 출력 값을 확률 분포로 변환하는 역할을 합니다. 즉, 여러 개의 클래스 중 하나를 예측해야 하는 문제에서 각 클래스에 속할 확률을 계산하는 데 사용됩니다.소프트맥스의 작동 방식소프트맥스 함수는 입력으로 받은 숫자들을 0과 1 사이의 값으로 변환하고, 그 값들의 합이 1이 되도록 정규화합니다. 이렇게 변환된 값들은 확률로 해석될 수 있습니다.소프트맥스 함수의 수식은 다음과 같습니다:content_copy P(i) = exp(z_i) / sum(exp(z_j) for j in range(K))Use code with cautionP(i): i번째 클래스에 속할 확률z_i: i번째 클래스에 대한.. 2025. 3. 3.
[LLM] 어텐션 어텐션에 대한 설명어텐션(Attention)은 딥러닝, 특히 자연어 처리(NLP) 분야에서 널리 사용되는 메커니즘입니다. Transformer 모델의 핵심 구성 요소이며, 입력 데이터의 특정 부분에 집중하여 모델의 성능을 향상시키는 데 중요한 역할을 합니다.어텐션의 작동 방식사람이 문장을 읽을 때 모든 단어에 동일한 중요도를 두지 않고, 문맥에 따라 특정 단어에 더 집중하는 것처럼, 어텐션 메커니즘도 모델이 입력 데이터의 특정 부분에 더 집중하도록 도와줍니다. 이는 쿼리(Query), 키(Key), 값(Value)이라는 세 가지 요소를 사용하여 이루어집니다.쿼리(Query): 현재 처리 중인 단어 또는 정보를 나타냅니다.키(Key): 입력 데이터의 다른 모든 단어 또는 정보를 나타냅니다.값(Value):.. 2025. 3. 3.
[LLM] 임베딩과 위치 인코딩 생성하기 위치 인코딩에 대한 설명위치 인코딩은 자연어 처리 모델, 특히 Transformer 모델에서 문장 내 단어들의 순서 정보를 표현하는 데 사용되는 중요한 기술입니다. 단어 임베딩이 단어의 의미를 벡터로 표현하는 반면, 위치 인코딩은 단어가 문장 내에서 어디에 위치하는지를 벡터로 표현합니다.왜 위치 인코딩이 필요한가요?RNN(Recurrent Neural Network)과 달리 Transformer 모델은 입력 시퀀스를 순차적으로 처리하지 않습니다. 즉, 모델은 단어들의 순서 정보를 암묵적으로 파악하지 못합니다. 따라서 단어의 의미뿐만 아니라 문장 내에서의 위치 정보를 명시적으로 모델에 제공해야 합니다. 이를 위해 위치 인코딩을 사용합니다.위치 인코딩은 어떻게 생성되나요?위치 인코딩을 생성하는 방법은 여러 .. 2025. 3. 3.
[LLM] 트랜스포머 LLM을 공부하면서 다양한 AI를 사용하면서 공부를 하고 있다.예전에 하던 구글 검색방식보다 훨씬 효율적이라고 느껴지고 있다. LLM에서 트랜스포머의 정의LLM (Large Language Model)에서 트랜스포머는 텍스트 데이터를 처리하는 데 특화된 신경망 아키텍처입니다. 어텐션 메커니즘을 사용하여 입력 시퀀스의 서로 다른 위치에 있는 단어 간의 관계를 파악하고, 이를 통해 문맥을 이해하고 의미 있는 표현을 생성합니다.핵심 특징:어텐션 메커니즘: 입력 시퀀스의 모든 단어에 대해 가중치를 부여하여, 문맥적으로 중요한 단어에 집중합니다. 이를 통해 모델은 문장의 의미를 더 정확하게 파악할 수 있습니다.병렬 처리: 어텐션 메커니즘은 입력 시퀀스를 순차적으로 처리할 필요가 없기 때문에, 병렬 처리가 가능합니.. 2025. 3. 2.
728x90