'AI > Paper Analysis' 카테고리의 다른 글
LoRA Paper (0) | 2025.04.01 |
---|---|
LIama 2 Paper Model (0) | 2025.04.01 |
LIama 1 Paper (0) | 2025.04.01 |
LoRA Paper (0) | 2025.04.01 |
---|---|
LIama 2 Paper Model (0) | 2025.04.01 |
LIama 1 Paper (0) | 2025.04.01 |
https://arxiv.org/abs/2106.09685
LoRA: Low-Rank Adaptation of Large Language Models
An important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks or domains. As we pre-train larger models, full fine-tuning, which retrains all model parameters, becomes le
arxiv.org
ChatGPT-1 Paper (0) | 2025.04.02 |
---|---|
LIama 2 Paper Model (0) | 2025.04.01 |
LIama 1 Paper (0) | 2025.04.01 |
https://arxiv.org/abs/2307.09288
Llama 2: Open Foundation and Fine-Tuned Chat Models
In this work, we develop and release Llama 2, a collection of pretrained and fine-tuned large language models (LLMs) ranging in scale from 7 billion to 70 billion parameters. Our fine-tuned LLMs, called Llama 2-Chat, are optimized for dialogue use cases. O
arxiv.org
ChatGPT-1 Paper (0) | 2025.04.02 |
---|---|
LoRA Paper (0) | 2025.04.01 |
LIama 1 Paper (0) | 2025.04.01 |
https://arxiv.org/abs/2302.13971
LLaMA: Open and Efficient Foundation Language Models
We introduce LLaMA, a collection of foundation language models ranging from 7B to 65B parameters. We train our models on trillions of tokens, and show that it is possible to train state-of-the-art models using publicly available datasets exclusively, witho
arxiv.org
ChatGPT-1 Paper (0) | 2025.04.02 |
---|---|
LoRA Paper (0) | 2025.04.01 |
LIama 2 Paper Model (0) | 2025.04.01 |
PaliGemma는 이미지와 텍스트를 동시에 입력받아 텍스트를 생성하는 경량의 비전-언어 모델(VLM)입니다. 이 모델은 PaLI-3에서 영감을 받아 SigLIP 비전 모델과 Gemma 언어 모델과 같은 오픈 소스 구성 요소를 기반으로 구축되었습니다.
Synced | AI Technology & Industry Review+6Home- Google Developers Blog+6캐글+6
PaliGemma의 아키텍처는 이미지 인코더와 텍스트 디코더로 구성되어 있습니다. 이미지 인코더는 SigLIP 모델을 활용하며, 텍스트 디코더는 Gemma 2B 모델을 기반으로 합니다. 이러한 결합을 통해 이미지와 텍스트 입력을 처리하여 다양한 비전-언어 과제에서 우수한 성능을 발휘합니다.
Home- Google Developers BlogHome- Google Developers Blog+1Medium+1Synced | AI Technology & Industry Review+1Medium+1
PaliGemma는 이미지 캡션 생성, 시각적 질문 응답, 객체 탐지 및 세분화 등 다양한 작업에 적용될 수 있습니다. 또한, 다국어를 지원하여 글로벌한 활용이 가능합니다.
최근에는 PaliGemma 2라는 업데이트 버전이 출시되어, Gemma 2 모델의 기능을 통합하고 다양한 비전-언어 작업에서 최첨단 성능을 달성하고 있습니다.
PJMA 모델을 학습시키고 평가한 후 배포까지 진행하면서 얻은 결과들을 정리해본다.
모델은 총 64 스텝 동안 학습을 진행했다. 학습이 진행될수록 **학습률(Learning Rate)**과 **손실값(Loss)**이 변하는데, 이를 통해 모델이 점점 더 최적화되고 있는지를 확인할 수 있다.
특히, 8 스텝마다 검증 데이터셋에 대한 예측 결과를 출력하는데, 이 과정을 통해 학습이 제대로 이루어지고 있는지를 직관적으로 파악할 수 있었다.
초기에는 예측 결과가 엉망이었다.
그러나 스텝이 증가하면서 모델이 점점 더 안정적인 예측을 수행하기 시작했고, 64 스텝이 끝났을 때는 거의 정답(Annotation)과 일치하는 수준으로 결과가 나왔다.
학습 시간은 T4 GPU 기준으로 몇 분 정도 소요되었으며, 하드웨어 성능이나 데이터셋 크기에 따라 달라질 수 있다.
학습이 완료된 후 검증 데이터셋에서 16개의 샘플을 테스트했다.
✅ 예측 정확도는 꽤 높았고, 단 한 번만 오답(5를 8로 잘못 인식)이 발생했다.
✅ **평균 정밀도(mAP)**는 0.9로, 높은 수준의 성능을 보였다.
✅ **혼동 행렬(Confusion Matrix)**을 확인해 본 결과, 대부분의 예측 값이 대각선에 위치하여 정확한 분류가 이루어졌음을 확인할 수 있었다.
학습된 모델을 저장한 후, 배포를 진행했다.
이후 Gradio 앱을 활용한 테스트를 진행했다.
추가로, "개(dog)"를 감지할 수 있는지도 확인해 보았는데, 기존 학습 데이터셋에 포함되어 있었기 때문에 여전히 인식이 가능했다.
이는 PJMA 모델이 기존 CNN 기반 감지 모델과 달리, 새로운 데이터셋으로 미세 조정(Fine-Tuning)하더라도 기존의 객체 감지 능력을 유지할 수 있다는 점을 보여준다.
테스트 중 몇 가지 문제점도 발견되었다.
예를 들어, 단순한 숫자 감지는 잘 수행했지만, "5 + 3 = ?" 같은 수식 이미지는 제대로 인식하지 못했다.
이유를 분석해 보면,
이런 요소들 때문에 모델이 복잡한 수식을 감지하는 데 어려움을 겪은 것으로 보인다.
처음에는 숫자 인식이 아닌 다른 데이터셋(예: 포커 카드 데이터셋)을 사용해 보았으나, mAP가 0.25 이상 올라가지 않는 문제가 발생했다.
이유를 분석해 보면,
1️⃣ 이미지에 포함된 객체 수가 너무 많아 모델이 한꺼번에 너무 많은 바운딩 박스를 예측해야 했음.
2️⃣ 모델이 바운딩 박스를 특정한 순서로 예측해야 하는데, 순서가 다르면 오답으로 처리되었을 가능성.
3️⃣ Attention Layer만 미세 조정(Fine-Tuning)하는 것으로는 부족했을 수도 있음.
4️⃣ 모델이 너무 작아서 더 큰 모델을 학습해야 할 필요가 있음.
이 문제를 해결하기 위해서는 데이터셋을 정리하거나, 학습 방식을 조정할 필요가 있다.
PJMA 모델을 자동 데이터 라벨링에도 사용할 수 있을까?
테스트해 본 결과, 제로샷(Zero-Shot) 성능이 뛰어나지는 않았다.
예를 들어, 차량 감지 데이터셋에서는 mAP가 0점으로 나왔는데, 이는 사전 학습 데이터에 차량 관련 정보가 없었기 때문으로 보인다.
하지만,
✅ 트위터 게시글 이미지
✅ 열화상 강아지 데이터
✅ 안전 헬멧 감지
✅ 동전 감지
같은 특정 데이터셋에서는 50% 이상의 mAP를 기록하며 어느 정도 성능을 보였다.
즉, PJMA는 반드시 **미세 조정(Fine-Tuning)**이 필요한 모델이라는 점을 다시 한 번 확인할 수 있었다.
체류 시간 분석 (0) | 2025.03.24 |
---|---|
YOLO-World: Real-Time, Zero-Shot Objeddt Detecdtion Explained (0) | 2025.03.24 |
실시간 영상 스트리밍에서 객체를 추적하고, 해당 객체가 특정 영역에 머무는 시간을 계산하는 방법과
특히, 정적 비디오 파일과 실시간 스트리밍의 차이를 강조하면서 실시간 영상 스트리밍에서 발생할 수 있는 문제를 해결하는 방법을 알아보자.
실시간 비디오 스트리밍에서 객체 추적 및 시간 계산을 어떻게 효율적으로 처리할 수 있는지에 대해 확인해보자.
구글 PailGemma (0) | 2025.03.25 |
---|---|
YOLO-World: Real-Time, Zero-Shot Objeddt Detecdtion Explained (0) | 2025.03.24 |
YOLO-World는 Zero-Shot Object Detection 모델로, 별도의 데이터 학습 없이 다양한 객체를 실시간으로 탐지할 수 있음. 기존 객체 탐지 모델보다 20배 빠른 속도를 제공하며, 저가형 GPU(Nvidia T4)에서도 원활하게 동작함.
기존 객체 탐지 모델(Faster R-CNN, SSD, YOLO 등)은 사전에 학습된 데이터셋(예: COCO, 80개 클래스) 내에서만 탐지가 가능함. 새로운 객체를 탐지하려면 추가 데이터셋을 구축하고 학습해야 하는 단점이 있음.
이를 해결하기 위해 Zero-Shot Object Detection 모델이 등장했으며, YOLO-World는 기존 모델 대비 속도가 빠르고 정확도가 높은 특징을 가짐.
비교: Grounding DINO vs. YOLO-World
- Grounding DINO: Zero-Shot 탐지가 가능하지만 속도가 느림 (이미지 1장당 1초)
- YOLO-World: Grounding DINO와 동일한 정확도를 유지하면서 20배 빠른 속도 제공
YOLO-World는 크게 3가지 주요 구성 요소로 이루어짐.
YOLO-World는 기존 Transformer 기반 탐지 모델과 달리 경량화된 CNN 백본을 사용하여 속도를 향상시킴. 또한 Prompt-then-Detect 방식을 도입하여 텍스트 임베딩을 한 번만 생성하고 재사용함으로써 실시간 탐지를 가능하게 함.
(1) 낮은 Confidence Threshold 설정
(2) 중복 탐지 문제 해결 (Non-Max Suppression, NMS)
YOLO-World는 이미지뿐만 아니라 실시간 비디오 스트림 처리에도 최적화됨.
(1) 특정 객체 탐지 실험 - "노란색 채워진 구멍" 탐지
(2) 불필요한 객체 필터링 (Relative Area Filtering)
YOLO-World는 Zero-Shot Object Detection을 실시간으로 수행할 수 있는 혁신적인 모델로, 기존 모델보다 빠르고 정확하며 유연한 탐지 기능을 제공함.
💡 YOLO-World는 다양한 산업에서 즉시 적용 가능하며, 실시간 객체 탐지가 필요한 모든 분야에 활용될 수 있음!
구글 PailGemma (0) | 2025.03.25 |
---|---|
체류 시간 분석 (0) | 2025.03.24 |
@Value("\${어쩌구저쩌구}")
@TestInstance (0) | 2023.10.27 |
---|
lsof -i :8080
kill {PID}
[Docker] 생성 및 실행 (0) | 2018.07.04 |
---|---|
운영체제 개론 (0) | 2017.05.29 |
지표 관련 용어 (0) | 2016.08.22 |
unity key (0) | 2016.05.07 |
RAID 1+0 과 0+1의 차이점 (0) | 2011.07.11 |
config server
yml 설정
dev, beta, prod
spring cloud bus 사용 - mq 사용하면 편함
gateway (0) | 2024.01.17 |
---|---|
h2 database (0) | 2024.01.16 |
'io.netty:netty-resolver-dns-native-macos'. Use DEBUG level to see the full stack: java.lang.UnsatisfiedLinkError: failed to load the required native library (0) | 2024.01.15 |
03. API Gateway Service (0) | 2024.01.15 |
02. user service (0) | 2024.01.15 |