https://arxiv.org/abs/1612.00593
Abstract
point cloud는 irregular format을 가지고 있기 때문에, 기존 연구들은 주로 regular 3D voxel grids로 데이터를 변환(voxelization or rendering)하여 처리하였다.
본 논문에서는, raw point cloud를 직접 처리하는 신경망 구조를 제안한다.
Input
set of 3D points {Pi | i = 1, ..., n}
Pi = {x, y, z} + extra feature channels such as color, normal
Output
classification : k개의 class에 대한 k개의 score
segmentation : n × m scores (n points, m categories)
Architecture
- point cloud 특징
1. unordered -> network need to be invariant to N! permutations of the input set in data feeding order.
2. Interaction among points -> model needs to be able to capture local structures from nearby points.
3. Invariance under transformations -> learned representation of the point set should be invariant to certain transformations.
- architecture의 key module
1. max pooling layer
2. local and global information combination structure
3. two joint alignment networks
1. Symmetry Function for Unordered Input(max pooling layer)
input permutation에 invariant한 model을 만들기 위해 3가지 전략 사용 가능
- input을 canonial 하게 정렬 (성능 별로)
- RNN 사용 (pcd에 어울리지 않음)
- 부가적인 symmetric function 사용 (본 논문에서 사용 - max pooling layer)
mlp와 max pooling을 사용하여 global feature 추출.
2. Local and Global Information Aggregation
segmentation을 위한 부가적인 네트워크
neighborhood point와의 관계를 고려하기 위해 local feature도 고려.
local feature + global feature -> per point feature
3. Joint Alignment Network
T-net 구조를 2개 사용하여 affine transform 수행 -> Invariance under transformations
T-net은 회전에만 영향을 미침. 이동과 같은 변환은 주로 bias를 통해 학습시킴.
'Paper > Perception' 카테고리의 다른 글
PointNet++ (0) | 2024.01.04 |
---|---|
VoxelNet (1) | 2023.10.04 |