[paper review] U-Net: Convolutional Networks for Biomedical Image Segmentation
#VISION #Segmentation #U-Net
Abstract
심층 네트워크를 훈련할 때는 수천개의 주석이 달린 훈련 샘플이 필요함
본 논문에서는 이 훈련 샘플을 효율적으로 사용하기 위해 강력한 데이터 확대 사용에 의존하는 네트워크 및 훈련 전략을 제시함
아키텍처는 컨텍스트를 캡처하기 위한 계약 경로와 정확한 현지화를 가능하게 하는 대칭 확장 경로로 구성됨
ISBI에서 기존의 최상의 방법이었던 sliding window convolution network보다 성능이 좋고 빠름
: 최신 GPU에서 512X512 분할하는데 1초도 안걸림
전체 구현&훈련된 네트워크 : http://lmb.informatik.uni-freiburg.de/people/ronneber/u-net
1 Introduction
컨볼루션 네트워크는 사용 가능한 훈련 세트 크기와 고려된 네트워크 크기 때문에 제한되었음
ImageNet 데이터 백만개의 데이터 세트에서 8개의 레이어와 수백만 개의 매개 변수를 가진 학습된 훈련 때문에 그 이후로 더 크고 심층적인 네트워크가 훈련됨
컨볼루션 네트워크의 일반적인 용도는 단일 클래스 레이블의 분류 작업
But 생물의학 이미지 처리에서는 localization 작업이 포함됨
수천개의 훈련 이미지는 생물 의학 이미지 처리에서 처리할 수 없기 때문에,
네트워크를 슬라이딩 윈도우 설정에서 훈련시켜 픽셀 주위의 로컬 영역을 입력으로 넣어서 각 픽셀의 클래스 레이블을 예측함
[특징]
1. 이 네트워크는 로컬라이징 할 수 있음
2. 패치 측면에서 훈련 데이터는 훈련 이미지 수보다 훨씬 큼
[단점]
1. 패치별로 네트워크를 별도로 실행해야 함, 패치 중복으로 인해 중복성이 많아 속도가 느림
2. localization accuracy와 context 사용의 trade-off 관계
: 패치가 클수록 localization 정확성을 떨어뜨리는 최대 풀링 계층이 많이 필요함,
작은 패치는 네트워크가 컨텍스트를 거의 볼 수 없게 함
이런 단점 해결하기 위해 본 논문에서는 ‘fully convolutional network’를 이용함
그림 1. U-net 아키텍처(예: 최저 해상도의 32x32픽셀) 각 파란색 상자는 다중 채널 피쳐 맵에 해당합니다. 채널 수는 상자 위에 표시됩니다. x-y-size는 상자의 왼쪽 하단 가장자리에 제공됩니다. 흰색 상자는 복사된 기능 맵을 나타냅니다. 화살표는 서로 다른 작업을 나타냅니다.
업샘플링 연산자로 대체되는 연속적인 계층으로 보완함 -> 출력의 해상도를 증가시킴
로컬라이징을 위해 high resolution 피쳐들이 업샘플링 된 출력과 결합함
업샘플링 부분에서도 많은 수의 특징 채널을 가지고 있어 네트워크 컨텍스트 정보를 더 높은 해상도 계층으로 전파 가능함
확장 경로는 수축 경로와 대칭적이며 u자형 아키텍처를 생성함
네트워크에는 완전히 연결된 레이어가 없으며 분할맵은 입력 이미지에서 컨텍스트를 사용할 수 있는 픽셀만 포함함
->오버랩 타일 전략에 의해 임의로 큰 영상을 원활하게 분할할 수 있음
* Overlap-tile 전략 / 노란색 영역에서 분할을 예측하려면 파란색 영역 내의 영상 데이터가 입력되어야 함, 누락된 입력 데이터는 미러링을 통해 추정됨
Tiling 전략은 네트워크를 큰 이미지에 적용하는 게 중요함
훈련 데이터가 크지 이렇지 않다면 탄력적 변형을 적용하여 과도한 데이터 확대를 사용함 -> 네트워크는 주석 달린 이미지 말뭉치에서 이러한 변환을 볼 필요 없이 변형에 대한 불변성을 학습할 수 있음
많은 셀 분할 작업에서 또 다른 과제는 동일한 클래스의 감지하는 개체를 분리하는 것
그림 3. DIC(차동 간섭 대조) 현미경으로 기록된 유리의 Hela 세포. (a) 원시 영상. (b) 지면 진실 분할로 오버레이 다른 색상은 HeLa 셀의 다른 인스턴스를 나타냅니다. (c) 생성된 분할 마스크(흰색: 전경, 검은색: 배경). (d) 네트워크가 경계 픽셀을 학습하도록 강제하기 위해 픽셀 단위 손실 중량을 매핑해야 한다.
셀 사이의 분리된 배경 라벨이 손실 함수에 큰 가중치를 얻는 weighted loss 사용을 제안함
c, d와 같이 세포 사이의 경계 포착 가능
2 Network Architecture
왼쪽 : 수축 경로 : 컨볼루션 네트워크의 전형적인 구조
2개의 3x3 컨볼루션 적용 후 각각 relu와 다운 샘플링을 위한 2x2 maxpolling을 함
각 다운 샘플링 단계에서 형성 채널의 수를 두 배로 늘림
오른쪽 : 확장 경로
형상맵의 업샘플링에 이어 형상 채널 수를 절반으로 줄이는 2x2 컨볼루션과 수축 경로에서 잘라낸 형상맵과의 연결을 함
두 개의 3x3 컨볼루션이 각각 relu로 구성됨
모든 컨볼루션에서 테두리 픽셀의 손실로 인해 자르기 작업이 필요함
최종 계층에서 1x1 컨볼루션 적용 : 64-구성 요소 피쳐 벡터를 원하는 클래스 수에 매핑하는 데 사용함
네트워크는 총 23개의 컨볼루션 레이어를 가지고 있고, 출력 분할 맵의 원활한 타일링을 허용하려면 모든 2x2 최대 풀링 작업이 짝수 x와 y 크기의 레이어에 적용되도록 입력 타일 크기를 선택하는 것이 중요함
3 Training
입력 영상과 그에 상응하는 분할 맵은 확률적 경사 하강 구현을 네트워크 훈련시킴
추가되지 않은 컨볼루션 때문에 출력 이미지는 일정한 테두리 너비로 입력보다 작음
오버헤드를 최소화하고 GPU 메모리를 최대한 사용하기 위해 큰 배치 크기보다 큰 입력 타일을 선호함
SO 배치를 단일 이미지로 축소함
높은 momentum을 줌 (0.99)
네트워크 출력 값은 픽셀 단위의 soft-max로 예측됨
Soft-max 수식 :
ak(x)는 픽셀x의 activation
K는 클래스의 수
* Touching cells separation
세포 분할 작업에서 동일한 클래스의 접촉 개체를 분리하는 것이 중요함
Loss function은 cross-entropy 함수가 사용됨
But touching cells 분리를 위해 weight map loss가 포함됨
3.1 Data Augmentation
Data Augmentation은 training sample이 적은 경우, 네트워크에 desired invariance와 robustness를 가르치기 위해 필요함
현미경 이미지의 경우 변형과 회색 값 변동에 대한 robustness 뿐만 아니라 shift와 rotation invariance도 필요함
훈련 샘플의 random elastic deformations는 주석이 달린 영상의 거의 없는 분할 네트워크를 훈련시키는 핵심임
거친 3x3 그리드에서 무작위 변위 벡터를 통해 부드러운 변형이 됨
변위는 표준편차가 10픽셀인 가우스 분포에서 샘플링 됨 -> 픽셀당 변위는 이원 보간을 사용하여 계산함 -> 끝에 있는 드롭아웃 계층은 추가적인 암묵적 데이터 확대를 수행함
4 Experiments
<1. 전자 현미경 기록에서 신경 구조의 분할>
데이터 : VNC직렬 섹션 전송 전자 현미경 이미지 30개(512X512픽셀) by ISBI 2012 전자파 분할 챌린지
각 이미지에 셀(흰색)과 막(검은색)에 해당하는 완전한 주석이 달린 지상 실측 분할 맵이 제공됨
테스트 세트는 공개적으로 사용할 수 있지만 분할 맵은 비밀로 유지됨
예측된 막 확률도를 주최자에게 전송함으로써 평가를 얻을 수 있음
평가는 10개의 다른 수준에서 지도의 임계값을 설정하고 왜곡 오류, 랜드 오류, 픽셀 오류의 계산을 통해 수행됨
u-net 결과 : 왜곡 오류 = 0.0003529, 랜드 오류 = 0.0382
랜드 오류 측면에서 이 데이터 세트에 맞는 알고리즘은 확률 맵에 적용된 고도의 데이터 세트 특정 후 처리 방법을 사용하는 것
<2. 광현미경 화상의 세포 세그멘테이션>
ISBI 셀 추적 문제에 대한 결과입니다. (a) "PhC-U373" 데이터 세트의 입력 영상 일부. (b) 수동 접지 진실(노란색 경계) 의 세그멘테이션 결과(사이안 마스크) (c) “DIC-HeLa” 데이터 세트의 입력 영상 일부. (d) 분할 결과(랜덤 컬러 마스크) (황색 경계)
제1 데이터 : 위상차 현미경 검사에 의해 기록된 폴리아크리미드 기질상의 글리오아종-성세포종 U373세포 by 2014년 2015년 ISBI 셀트래킹 챌린지
트레이닝 세트 모두 주석 달려있음
평균 IOU는 92%
제2 데이터 : DIC-HeLa, 차동 간섭 콘트라스트 (DIC) 현미경법으로 기록된 플랫 유리상의 HeLa셀
부분적으로 주석 달려있음, 20가지 트레이닝 이미지 포함
평균 IOU는 77.5%
5 Conclusion
U-net은 Biomedical segmentation application에 우수한 성능을 보임
탄력적인 변형으로 데이터를 확대했기 때문
주석달린 영상이 거의 필요하지 않고 6GB에서 10시간만에 가능함