728x90 반응형 딥러닝&머신러닝/Paper Review13 Real Time Speech Enhancement in the Waveform Domain 논문 원본: https://arxiv.org/pdf/2006.12847[Abstract] - 이 논문에서는 cpu에서도 실시간으로 잘 작동하는 Sound Enhancement model을 제안했다. - 모델의 아키텍처는 encoder-decoder, skip-connections으로 구성되어 있다. - 위의 모델은 시간, 주파주 도메인에 최적화되며, 여러 손실 함수를 사용했다. - 우리는 모델 성능과 일반화 능력을 더욱 향상시키기 위해 원시 파형(raw waveform)에 직접 적용되는 일련의 데이터 증강 기법을 제안함. [Introduction] - 우리는 실시간 버전의 'DEMUCS' 아키텍처를 제안했다. - speech enhancement는 여러 개의 metrics이 존재하는데 인간의 평가와는 c.. 2024. 5. 23. [논문리뷰]SeD: Semantic-Aware Discriminator for Image Super-Resolution 논문: https://arxiv.org/pdf/2402.19387.pdf github: https://github.com/lbc12345/SeD [Abstract] GANs은 super resolution task에서 널리 사용되었습니다. 관련 내용 중에서 'Discriminator' real-world의 고화질 이미지로 만드는 adversarial training에서 활용되어졌습니다. 그러나, 이미지의 텍스처 질감을 너무 과도하게 강조하여 실제와는 다른 가상적인 질감을 생성할 수 있으며 모델이 예상한 결과와 다르게 생성물을 만들어낼 수 있습니다. 이를 완화하기 위해서, 간단하고 효과적인 'SeD'를 제안했습니다. 이는 SR 네트워크가 이미지의 의미론적 정보를 조건으로 도입함으로써 세밀한 분포를 학습하도.. 2024. 3. 25. [논문리뷰] Activating More Pixels in Image Super-Resolution Transformer(HAT) "Activating More Pixel in Image Super-Resolution Transformer" paper: https://arxiv.org/abs/2205.04437 GitHub: https://github.com/XPixelGroup/HAT Activating More Pixels in Image Super-Resolution Transformer Transformer-based methods have shown impressive performance in low-level vision tasks, such as image super-resolution. However, we find that these networks can only utilize a limited spatial r.. 2024. 3. 19. Towards_Real-Time_4K_Image_Super-Resolution_CVPRW_2023 논문 관련 링크: https://paperswithcode.com/paper/towards-real-time-4k-image-super-resolution Papers with Code - Towards Real-Time 4K Image Super-Resolution Implemented in 2 code libraries. paperswithcode.com 논문을 읽은 이유: 현재 연구소에서 개발중인 군용 Super-Resolution Task 모델의 아키텍처 구성 요소를 바꾸는 과정에서 영감을 얻고자 했다. 특히, Real-Time이라는 키워드에 이끌려 논문을 열었다. [Abstract] 현재는 FHD, UHD가 화질의 기준이 되어버렸습니다. 이로인해 많은 곳에서 기준을 맞추기 위해 '실시간'으로 화.. 2024. 2. 7. To learn image super-resolution, use a GAN to learn how to do image degradation first (HLLHGAN) (저해상도를 학습해서 화질개선 Gan을 학습하세요.) Keywords: Image and face super-resolution, Generative Adversarial Networks, GANs. [Abstract] super-resulution 연구의 핵심은 낮은 해상도의 이미지를 높은 해상도로 증가시키는 방법에 중점을 두고 개발되었고 학습에 필요한 데이터는 주로 인위적으로 흐리게하거나 간단하게 이차 다운샘플링에 의해 생성되었습니다. 그러나, 이 논문은 기존의 방법이 좋은 결과를 만들어내지 못함을 주장합니다. 즉, 고화질데이터셋을 통해 인위적으로 만들어진 저화질데이터셋으로 학습한 모델에 실제 이미지를 적용하면 성능이 떨어진다는 것입니다. 이 문제를 우회하기 위해 two-stage process를 제.. 2024. 1. 15. Fast Nearest Convolution for Real-Time Effictient Image Super-Resolution[논문리뷰] Fast Nearest Convolution for Real-Time Effictient Image Super-Resolution (실시간 효율적 이미지 초고해상도를 위한 빠른 최근접 합성곱 기술) Keywords: Image super-resolution, real-time network, mobile device, nearest convolution, quantization [Abstract] 딥러닝 기반의 SISR(Single Image Super Resolution)은 많은 각광을 받았고 GPU를 사용하면서 놀랄만한 성취를 이뤘다. 그러나, 최신의 SOTA Model은 많은 파라미터 수, 메모리, 계산 자원을 요구하기 때문에(즉 무겁다. 그래서 느리다.), 보통 모바일 CPU/NPU 환경에서는 저.. 2024. 1. 10. [논문리뷰] ESRGAN 논문: https://arxiv.org/abs/1809.00219 ESRGAN: Enhanced Super-Resolution Generative Adversarial Networks The Super-Resolution Generative Adversarial Network (SRGAN) is a seminal work that is capable of generating realistic textures during single image super-resolution. However, the hallucinated details are often accompanied with unpleasant artifacts. To furth arxiv.org ESRGAN은 Enhanced Super-Resol.. 2024. 1. 3. [논문 읽기]EfficientNet, Rethinking Model Scaling for Convolutional Neural Networks 모델의 정확도를 높일 때, 일반적으로 (1) 모델의 깊이, (2) 너비, (3) 입력 이미지의 크기 를 조절합니다. 기존에는 이 세 가지를 수동으로 조절하였기 때문에, 최적의 성능과 효율을 얻지 못했습니다. EfficientNet은 3가지를 효율적으로 조절할 수 있는 compound scaling 방법을 제안합니다. 깊이, 너비, 입력 이미지 크기가 일정한 관계가 있다는 것을 실험적으로 찾아내고, 이 관계를 수식으로 만듭니다. Compound scaling 방법으로 NAS(neural architecture search) 구조를 수정하여 SOTA를 달성합니다. ResNet이나 MobileNet등 CNN 기반 구조에도 효과가 있다고 하네요. Model Scaling 일반적으로 모델을 Scaling하는 방법.. 2023. 4. 5. CNN의 parameter 개수와 tensor 사이즈 계산하기 CNN의 parameter 개수와 tensor 사이즈 계산하기 이번 글에서는 네트워크의 텐서 사이즈와 파라미터의 갯수를 계산하는 공식에 대해 다루려 한다. 아래의 AlexNet을 이용하여 예시를 든다. Alexnet의 구조 AlexNet의 구조 Input: 2272273 크기의 컬러 이미지. 논문의 224*224 사이즈는 오타임 Conv-1: 11*11 크기의 커널 96개, stride=4, padding=0 MaxPool-1: stride 2, 3*3 max pooling layer Conv-2: 5*5 크기의 커널 256개, stride=1, padding=2 MaxPool-2: stride 2, 3*3 max pooling layer Conv-3: 3*3 크기의 커널 384개, stride=1, p.. 2023. 3. 30. NFNet 논문 번역(추후에 리뷰) High-Performance Large-Scale Image RecognitionWithout Normalization(2021, Deepmind) 2021년 2월의 Deepmind 에서 발표한 CNN 모델로, ImageNet에서 EfficientNet을 넘는 SOTA 성능을 달성하였다. 이는 기존의 Batch-Normalization 기법을 사용하지 않고 고성능을 달성한 Normalizer-Free Net 에 관한 내용으로, 논문의 내용을 살피고 요약해보자. Abstract ‘배치 정규화(Batch-Normalization)’ 기법은 대부분의 이미지 분류 모델에서의 핵심 요소이지만 배치 크기(batch-size)에 대한 의존성, 예제(examples) 간의 상호작용으로 인해 완전한 성능을 보장하는 기.. 2023. 3. 28. 이전 1 2 다음 728x90 반응형