데이터 썸네일형 리스트형 ControlNet (Adding Conditional Control to Text-to-Image Diffusion Models) 논문 정리 Text to image에 조건을 부여하기 위해 사용하는 ControlNet 의 논문을 읽고 내용을 간략하게 정리해보았다.AbstractControlNet : pre-trained text-to-image에 공간적인 조건을 주는 아키텍쳐encoding layers만 많은 이미지로 재학습 한다.zero convolution으로 연결 → 0으로 초기화 되어서 점점 커지며 불필요한 노이즈가 파인튜닝에 영향을 못미치도록 함.1. Introductiontext-to-image를 공간적 요소에 대한 control에 한계가 있음.text를 통해 설명이 어렵기 때문추가적인 이미지로 공간적인 컨트롤이 가능하다.image-to-image 모델은 conditioning 이미지에서 target 이미지로의 매핑을 배울 수 있.. 더보기 FRIEREN: Efficient Video-to-Audio Generation Network with Rectified Flow Matching Flow Matching 이란?Rectified Flow Matching(RFM)의 기본 원리노이즈 분포에서 데이터 분포로의 전송 경로를 학습하는 모델 • 노이즈 분포: 무작위 샘플(p_0(x)), 예를 들어 랜덤 숫자. • 데이터 분포: 우리가 원하는 결과(p_1(x)), 예를 들어 오디오의 멜스펙트로그램.Probability path를 정의하고 이를 기반으로 샘플을 변환함Probability path: 노이즈 샘플( $x_0$)에서 데이터 분포( $x_0$)으로 이동하는 경로RFM은 이 경로를 직선에 가깝게 설계합니다.경로 학습 • x_0: 노이즈 분포에서 샘플링된 초기 값. • x_1: 데이터 분포에서 샘플링된 목표 값. • x(t): 시간 t에 따라 x_0에서 x_1로 이.. 더보기 Adding Conditional Control to Text-to-Image Diffusion Models 논문 리뷰 이미지 생성형 모델에 이미지로 조건을 줄 수 있는 아키텍쳐인 ControlNet에 대한 논문을 읽어보았다.AbstractControlNet : pre-trained text-to-image에 공간적인 조건을 주는 아키텍쳐encoding layers만 많은 이미지로 재학습 한다.zero convolution으로 연결→ 0으로 초기화 되어서 점점 커지며 불필요한 노이즈가 파인튜닝에 영향을 못미치도록 함.1. Introductiontext-to-image를 공간적 요소에 대한 control에 한계가 있음.text를 통해 설명이 어렵기 때문추가적인 이미지로 공간적인 컨트롤이 가능하다.image-to-image 모델은 conditioning 이미지에서 target 이미지로의 매핑을 배울 수 있다.spatial m.. 더보기 [논문 정리]Introduction to VLM(3/3) 4. Approaches for Responsible VLM Evaluationvisio-linguistic abilities(단어가 visual clue에 잘 매핑되는 지) 추정하는 것이 중요함VQA, zero-shot prediction, bias or hallucination 등을 고려4. 1 Benchmarking visio-linguistic abilities특정 단어나 문장을 일치하는 visual clue와 잘 연관시키는 능력을 평가4. 1. 1 Image captioning생성한 caption을 BLEU score나 ROUGE로 측정 → BLEU score는 너무 heuristic함CLIPScore : image와 caption의 CLIP representation 유사도→ CLIP 모델 성.. 더보기 [논문 정리]Introduction to VLM(2/3) 3. A Guide to VLM Trainingdata curation pipeline으로 scaling law를 깨고 잘 학습시킬 수 있다.VLM Training 시 Data, Grounding, alignment가 중요하다.3. 1 Training DataDataComp → Pretraining dataset에 대한 벤치마크Data Pruningheuristic하게 low-quality pair 제거pre-trained VLM을 이용해서 랭킹 후 poorly aligned data pair를 모두 버림다양하고 균형있는 데이터셋 만들기Ranking based on pretrained VLMCLIP-score : image와 text embedding 사이의 cosine similarity 계산→ ima.. 더보기 [논문 정리]Introduction to VLM(1/3) 1. Introductionlanguage와는 다르게 vision은 훨신 고차원의 공간을 가지고, 개념들이 쉽게 분리될 수 없다.LLM → vision input을 받을 수 있도록 확장되고 있다.vision-language 연구가 엄청난 혁신을 가져올 것이다.현재 많은 VLM은 특성이나 순서를 이해하지 못하고, 할루시네이션이 있다.2. Families of VLMcontrastive learningpositive pair → similar representationnegative pair → different representationmaskingtext는 그대로 두고, image match를 masking한 후 reconstructionimage는 그대로 두고, text는 masking한 후 recon.. 더보기 구글 코랩에서 빅쿼리 테이블 불러오기 빅쿼리로 불러온 데이터를 손쉽게 코랩으로 불러와 분석할 수 있는 방법을 소개한다.1번은 데이터를 불러오는 속도가 빠르나, 약간 귀찮을 수 있고, 2번은 손쉬우나 데이터를 불러오는 속도가 느리다.수십만 row가 넘어간다면 1번 방법을 추천한다.1. bigframes 라이브러리로 불러오기(빠름)1) 빅쿼리에서 내가 불러오고자하는 쿼리를 입력한후 작업기록에서 작업 ID확인 2) 설정# @title Setupfrom google.cloud import bigqueryfrom google.colab import data_tableimport bigframes.pandas as bpdimport bigframesproject = 'dacon-ctr-prediction' # Project ID inserted bas.. 더보기 Transformer 기반 모델의 3가지 아키텍처(Encoders, Decoders, Encoder-Decoders)에 대해 알아보자 최근 자연어처리 분야에서 가장 핫한 모델은 당연히 GPT일 것이다. GPT는 Generative Pretrained Transformer의 약자로, Transformer의 Decoder만 사용하여 자연어 생성에 강한 모델이다. 이 글을 통해 Transformer를 사용한 모델들의 아키텍쳐 3가지(인코더 기반, 디코더 기반, 인코더-디코더 기반)를 살펴보고자한다. Seq-to-Seq Transformer를 이해하기 전에 우선 seq-to-seq 구조에 대해 알아야한다. seq-to-seq 구조란 sequence 자료구조(데이터를 순서대로 나열한 자료구조이며, 그 순서 순서가 의미가 있다)를 입력받아, sequence로 출력하는데 대표적으로 자연어가 sequence자료구조이다. seq-to-seq 구조는 두.. 더보기 이전 1 2 3 4 다음