HAL Id: tel-02458455
https://pastel.archives-ouvertes.fr/tel-02458455
Submitted on 28 Jan 2020
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of
sci-entific research documents, whether they are
pub-lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diffusion de documents
scientifiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
Hugues Thomas
To cite this version:
Hugues Thomas. Learning new representations for 3D point cloud semantic segmentation. Machine
Learning [cs.LG]. Université Paris sciences et lettres, 2019. English. �NNT : 2019PSLEM048�.
�tel-02458455�
Préparée à MINES ParisTech
Apprentissage de nouvelles représentations pour la
sémantisation de nuages de points 3D
Learning new representations for 3D point cloud semantic
segmentation
Soutenue par
Hugues THOMAS
Le 19 novembre 2019
Ecole doctorale n° 432
Sciences
et
Métiers
de
l’Ingénieur
Spécialité
Mathématiques,
Informatique Temps-Réel,
Robotique
Composition du jury :
Paul CHECCHINProfesseur, Université Clermont Auvergne (UCA)
Bruno VALLET
Chargé de recherche, Institut national de l’information géographique et forestière (IGN)
Pascal, MONASSE
Professeur, Ecole Nationale des Ponts et Chaussées
Martin WEINMANN
Chargé de recherche, Karlsruhe Institute of Technology (KIT)
Beatriz MARCOTEGUI
Professeur, Mines ParisTech
Jean-Emmanuel DESCHAUD
Chargé de recherche, Mines ParisTech
François GOULETTE
Professeur, Mines ParisTech
Rapporteur Rapporteur Président Examinateur Examinateur Examinateur Directeur de thèse
𝜌
𝑊𝑘𝑘 < 𝐾
𝑓𝑖
ℎ𝑖𝑘
1 × 1
𝐷𝑖𝑛 ≠ 2𝐷
𝒫
ℱ= { (𝑥
𝑖, 𝑓
𝑖) | 𝑥
𝑖∈ ℝ
3, 𝑓
𝑖∈ ℝ
𝐷}
𝑖<𝑁𝑘
𝑘
ℝ
3𝒫
𝒫 = {𝑥
𝑖∈ ℝ
3}
𝑖<𝑁𝑁
𝒫
𝒫 ∈ ℝ
𝑁×3𝒫
ℱ= { (𝑥
𝑖, 𝑓
𝑖) | 𝑥
𝑖∈ ℝ
3, 𝑓
𝑖∈ ℝ
𝐷}
𝑖<𝑁𝐷
ℱ ∈ ℝ
𝑁×𝐷𝒫 ∈ ℝ
𝑁×3𝒫
ℱ
𝑦
0∈ ℝ
3𝒫 = {𝑥
𝑖∈ ℝ
3}
𝑖<𝑁𝑥
𝑖𝑦
0𝑦
0𝑥
𝑖𝑦
0𝑟 ∈ ℝ
𝑟
𝑦
0𝒩
𝑟𝑎𝑑𝑖𝑢𝑠(𝑦
0, 𝒫, 𝑟) = { 𝑥
𝑖∈ 𝒫 | ‖𝑦
0− 𝑥
𝑖‖ ≤ 𝑟 }
𝑦
0𝑘
𝑦
0𝒩
𝐾𝑁𝑁(𝑦
0, 𝒫, 𝑘) = {𝑥
𝑖∈ 𝒫 | ‖𝑦
0− 𝑥
𝑖‖ ≤ ‖𝑦
0− 𝑥
𝑖+1‖, 𝑖 < 𝑘 }
𝑥
𝑖𝑦
0𝑟 ∈ ℝ
𝐻
𝑃
𝐻𝐻
𝒩
𝑐𝑦𝑙(𝑦
0, 𝒫, 𝑟, 𝐻) = { 𝑥
𝑖∈ 𝒫 | ‖𝑃
𝐻(𝑦
0) − 𝑃
𝐻(𝑥
𝑖)‖ ≤ 𝑟 }
𝑘
𝑘 = 3
𝑇
𝑇
𝜎
𝑛
𝑁
𝑃(𝑖𝑛𝑙𝑖𝑒𝑟) = 𝑛 𝑁
⁄
𝑃(𝑎𝑙𝑤𝑎𝑦𝑠 𝑓𝑎𝑙𝑠𝑒) = (1 − (𝑛 𝑁
⁄ )
𝑘)
𝑇𝑃(𝑠𝑢𝑐𝑒𝑠𝑠𝑓𝑢𝑙 𝑟𝑎𝑛𝑠𝑎𝑐) = 1 − (1 − (𝑛 𝑁
⁄ )
𝑘)
𝑇𝑇
𝑚𝑖𝑛𝑝
𝑇
𝑚𝑖𝑛=
log(1 − 𝑝)
log(1 − (𝑛 𝑁
⁄ )
𝑘)
𝑇
𝑚𝑖𝑛=
log(1 − 0.99)
log(1 − 0.5
3)
= 35
𝑛 → 𝑁
𝑇
𝑚𝑖𝑛= 1
𝑘 > 3
𝑛 ≪ 𝑁
𝑇
𝑚𝑖𝑛~ log (
1
1 − 𝑝
) (
𝑁
𝑛
)
𝑘~ 𝑂 ((
𝑁
𝑛
)
𝑘)
𝑂(𝑁 + 𝑛𝑙𝑜𝑔(𝑁))
𝑛 → 𝑁
𝑂(𝑁𝑙𝑜𝑔(𝑁))
𝐶 ⊂ ℝ
3𝐩
𝒩(𝐩
𝟎, 𝐶, 𝑟) = {𝐩 ∈ 𝐶 | ‖𝐩
𝟎− 𝐩‖ ≤ 𝑟}
𝑙 ∈ ℝ
𝑟 ∈ ℝ
𝜌 =
𝑟 𝑙𝜌
𝑟
0𝑆
𝜑
𝑠 ∈ {0, … , 𝑆 − 1}
𝐩
𝟎∈ ℝ
3𝒩
𝑠(𝐩
𝟎) = 𝒩(𝐩
𝟎, 𝐶
𝑠, 𝑟
𝑠)
𝑟
𝑠= 𝑟
0× 𝜑
𝑠𝑠
𝐶
𝑠𝑟
𝑠⁄
𝜌
𝜆
1> 𝜆
2> 𝜆
3∈ ℝ
𝐞
1, 𝐞
2, 𝐞
3∈ ℝ
3cov(𝒩) =
1
|𝒩|
∑ (𝐩 − 𝐩̅)(𝐩 − 𝐩̅)
𝑇 𝐩∈𝒩∑ 𝜆
𝑖(∏ 𝜆
𝑖)
1 3 ⁄− ∑ 𝜆
𝑖ln(𝜆
𝑖)
(𝜆
1− 𝜆
2) 𝜆
⁄
1(𝜆
2− 𝜆
3) 𝜆
⁄
1𝜆
3⁄
𝜆
1𝜆
3⁄
(𝜆
1+ 𝜆
2+ 𝜆
3)
× 2
|
𝜋
2
− angle(𝐞
𝑖− 𝐞
𝑧)|
𝑖∈[0,2]× 6
1
|𝒩|
|∑⟨𝐩 − 𝐩
𝟎|𝐞
𝑖⟩
𝑘|
𝑖∈[0,1,2] 𝑘∈[1,2]× 2
|𝒩|
1
∑⟨𝐩 − 𝐩
𝟎|𝐞
𝑖⟩
𝑘 𝑘∈[1,2]|𝒩|
𝐩̅
𝒩
(𝜆
1− 𝜆
3) 𝜆
⁄
1|𝜋/2 − angle(𝐞
𝑖− 𝐞
𝑧)|
𝐞
𝑧𝑆 = 8
𝑟
0= 0.1𝑚
𝜑 = 2
𝜌 = 5
𝑆, 𝑟
0, 𝜑
ρ
𝐹
1𝐹
1=
2𝑇𝑃
2𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁
IoU =
𝑇𝑃
𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁
=
𝐹
12 − 𝐹
1𝑇𝑃 𝐹𝑃
𝐹𝑁
± ± ± ± ± ± ± ± ± ± ± ± ±𝒯
𝒰
𝒰
𝒯
𝑛0 𝑛𝑖𝑛𝑐 𝑖𝑚𝑎𝑥 𝒫 𝐶 𝒫𝑐 𝑐 𝒯0= ⋃ {(𝑝𝑗)𝑗<𝑛 0 | 𝑝𝑗∈𝒫𝑐} 𝑐<𝐶 𝑖 = 0 𝑖𝑚𝑎𝑥 𝒯𝑖 𝒰𝑖=𝒫∖ 𝒯𝑖 ℰ. 𝒯𝑖+1= 𝒯𝑖 ∪ {(𝑝𝑗)𝑗<𝑛 𝑖𝑛𝑐 | 𝑝𝑗∈ ℰ}
𝑛
0= 100
𝑛
𝑖𝑛𝑐= 300
𝑖
𝑚𝑎𝑥= 18
𝑛
0= 200
𝑛
𝑖𝑛𝑐= 1,800
𝑖
𝑚𝑎𝑥= 50
𝐹
1𝑆 = 8
𝑟
0= 0.05𝑚
𝜑 = 2
𝜌 = 5
𝑛
0= 1,000
𝑛
𝑖𝑛𝑐= 2,000
𝑖
𝑚𝑎𝑥= 20
𝐹1
× 3
1
|𝒩|
∑ 𝑐
× 3
1
|𝒩| − 1
∑(𝑐 − 𝑐̅)
2𝑆 = 8
𝑟
0= 0.05𝑚
𝜑 = 2
𝜌 = 5
𝑆 = 8
𝑟
0= 0.1𝑚
𝜑 = 2
𝜌 = 5
𝑛
0= 1,000
𝑛
𝑖𝑛𝑐= 2,000
𝑖
𝑚𝑎𝑥= 20
𝜌
𝜌
𝜌
𝜌 = 3
𝜌
𝜌
𝜌 = 5
𝜌𝜌
𝜌
3 × 3
𝜌
256
3𝐹
𝑔
𝐹 ∗ 𝑔 = ℱ
−1(ℱ(𝐹) ⊙ ℱ(𝑔))
⊙
∗
ℱ
𝑈
𝑥
𝑥̂ = ℱ(𝑥) = 𝑈
𝑇𝑥
𝑥 = ℱ
−1(𝑥̂) = 𝑈𝑥̂
𝐹 ∗ 𝑔 = 𝑈(𝑈
𝑇𝐹 ⊙ 𝑈
𝑇𝑔)
𝑈
𝑇𝑔
𝑈
𝑇𝑔
Θ
𝐹 ∗ 𝑔 = 𝑈Θ𝑈
𝑇𝐹
Θ
𝑀𝐿𝑃(ℎ
1, … , ℎ
𝑙)
𝑙
ℎ
𝑖𝑖
1 × 1
ℝ
2ℝ
264 × 64
3 × 3
𝐼
𝑔
𝑥
(𝐼 ∗ 𝑔)(𝑥) = ∑ 𝑔(𝑥
𝑖− 𝑥)𝐼(𝑥
𝑖)
𝑥𝑖∈𝒩𝑥𝒩
𝑥𝑥
𝑥
𝑥
𝑖ℕ
2𝑔
𝑥
𝑥
𝑥
𝑖ℝ
3𝑔
𝑥
𝑖𝑓
𝑖𝒫 ∈ ℝ
𝑁×3ℱ ∈ ℝ
𝑁×𝐷ℱ
𝑔
𝑥 ∈ ℝ
3(ℱ ∗ 𝑔)(𝑥) = ∑ 𝑔(𝑥
𝑖− 𝑥)𝑓
𝑖 𝑥𝑖∈𝒩𝑥𝑓
𝑖ℝ
𝐷𝑔
ℝ
𝑂𝑂
𝑔
𝑥
𝑦
𝑖= 𝑥
𝑖− 𝑥
𝑔
ℝ
3ℝ
3𝑔
ℝ
3𝑔
𝑔 = 𝑀𝐿𝑃(16,32, 𝐷 × 𝑂)
𝐷 × 𝑂
𝐾
𝑲
𝑊
𝐾
𝜒
𝜒(𝑥) = 𝑁𝑒𝑡(𝒩
𝑥)
𝑁𝑒𝑡
𝜒
𝐾 × 𝐾
𝜒
𝑥
𝜒
𝜒conv (𝑥) = ∑ 𝑊
𝑘(∑ 𝜒
𝑖𝑘(𝑥)[𝑀𝐿𝑃(𝑦
𝑖), 𝑓
𝑖]
𝑖<𝐾)
𝑘<𝐾[… , … ]
𝜒conv (𝑥) = ∑ 𝑊
𝑘1(∑ 𝜒
𝑖𝑘(𝑥)𝑀𝐿𝑃(𝑦
𝑖)
𝑖<𝐾)
𝑘<𝐾+ ∑ 𝑊
𝑘2(∑ 𝜒
𝑖𝑘(𝑥)𝑓
𝑖 𝑖<𝐾)
𝑘<𝐾𝜒
𝑖𝑘𝜒
𝑁𝑒𝑡
𝐾
𝑁𝑒𝑡
𝑁𝑒𝑡
𝜒
(ℱ ∗ 𝑔)(𝑥) =
1
|𝒩
𝑥|
∑
1
𝑝(𝑥
𝑖|𝑥)
𝑔(𝑥
𝑖− 𝑥)𝑓
𝑖 𝑥𝑖∈𝒩𝑥𝑔
𝐷 × 𝑂
𝑔
𝑀𝐿𝑃(8,8,1)
𝑀𝐿𝑃(8,8,8)
𝑀𝐿𝑃(8,8,1)
𝑔
𝐷
𝐷 × 𝑂
1 × 1
𝑔
𝑔(𝑦
𝑖) =
𝑤𝑉(𝑖) 𝑛𝑉(𝑖)𝑉(𝑖)
𝑦
𝑖𝑤
𝑛
3
3= 27
𝑔
𝑔(𝑦
𝑖) = 𝑔
𝑠𝑡𝑒𝑝(𝑦
𝑖) ∙ 𝑔
𝑇𝑎𝑦𝑙𝑜𝑟(𝑦
𝑖)
𝑔
𝑠𝑡𝑒𝑝𝑔
𝑇𝑎𝑦𝑙𝑜𝑟𝑔
𝑔(𝑦
𝑖) = 𝑤
𝑖∙ 𝑔
𝑇𝑎𝑦𝑙𝑜𝑟(𝑦
𝑖)
𝑤
𝑖𝑖
𝑔
ℝ
3𝑔
𝐷 × 𝑂
ℝ
3∀𝑑 < 𝐷,
∀𝑜 < 𝑂,
𝑔
𝑑,𝑜(𝑦
𝑖) = 𝑊
𝑑,𝑜𝑦
𝑖+ 𝑏
𝑑,𝑜𝐷 × 𝑂 × 4
𝑔
𝑔(𝑦
𝑖) = ∑ Φ(|𝑦
𝑖− 𝑥̃
𝑘|)𝑊
𝑘 𝑘<𝐾Φ
𝑦
𝑖𝑥̃
𝑘𝐷 × 𝑂
𝑊
𝑘𝑥̃
𝑘𝑔
𝑥
ℝ
3𝒩
𝑥= {𝑥
𝑖∈ 𝒫 | ‖𝑥
𝑖− 𝑥‖ ≤ 𝑟}
𝑦
𝑖= 𝑥
𝑖− 𝑥
ℬ
𝑟3= {𝑦 ∈ ℝ
3| ‖𝑦‖ ≤ 𝑟} ℬ
𝑟3𝑔
𝑔
{𝑥̃
𝑘}
𝑘<𝐾𝐾
{𝑊
𝑘}
𝑘<𝐾𝐷
𝑖𝑛𝐷
𝑜𝑢𝑡∀𝑘 < 𝐾 𝑥̃
𝑘∈ ℬ
𝑟3𝑊
𝑘∈ ℝ
𝐷𝑖𝑛×𝐷𝑜𝑢𝑡𝑔
𝑦
𝑖∈ ℬ
𝑟3𝑔(𝑦
𝑖) = ∑ ℎ(𝑦
𝑖, 𝑥̃
𝑘)𝑊
𝑘 𝑘<𝐾ℎ
𝑥̃
𝑘𝑦
𝑖𝑥̃
𝑘𝑦
𝑖ℎ(𝑦
𝑖, 𝑥̃
𝑘) = max (0, 1 −
‖𝑦
𝑖− 𝑥̃
𝑘‖
𝜎
)
(𝑊𝑘)𝑘<𝐾 𝑓𝑖 ℎ𝑖𝑘𝜎
𝐾
𝐾
𝑥̃
𝑘∀𝑥 ∈ ℝ
3,
𝐸
𝑘𝑟𝑒𝑝(𝑥) =
1
‖𝑥 − 𝑥̃
𝑘‖
∀𝑥 ∈ ℝ
3,
𝐸
𝑎𝑡𝑡(𝑥) = ‖𝑥‖
2𝐸
𝑡𝑜𝑡= ∑ (𝐸
𝑎𝑡𝑡(𝑥̃
𝑘) + ∑ (𝐸
𝑘𝑟𝑒𝑝(𝑥̃
𝑙))
𝑙≠𝑘)
𝑘<𝐾𝐾
𝑟
𝑜𝑟𝑏𝑖𝑡𝑟
𝜎
𝜎
𝑟
𝑜𝑟𝑏𝑖𝑡= 1.5 × 𝜎
𝑟 = 2.5 × 𝜎
𝜎
𝐾
(2𝑘 + 1)
𝑑𝑖𝑚𝑘
𝑑𝑖𝑚
𝑟
𝑜𝑟𝑏𝑖𝑡𝜎
ℎ
ℎ
𝑙𝑖𝑛𝑒𝑎𝑟(𝑦
𝑖, 𝑥̃
𝑘) = max (0, 1 −
‖𝑦
𝑖− 𝑥̃
𝑘‖
ℎ
𝑔𝑎𝑢𝑠𝑠𝑖𝑎𝑛(𝑦
𝑖, 𝑥̃
𝑘) = exp (
−‖𝑦
𝑖− 𝑥̃
𝑘‖
22𝜎
2)
ℎ
𝑟𝑒𝑐𝑡(𝑦
𝑖, 𝑥̃
𝑘) = {
0, else
1, if ‖𝑦
𝑖− 𝑥̃
𝑘‖ < 𝜎
𝑔
𝑔(𝑦
𝑖) = ∑ ℎ(𝑦
𝑖, 𝑥̃
𝑘)𝑊
𝑘 𝑘<𝐾𝑔(𝑦
𝑖) = ℎ(𝑦
𝑖, 𝑥̃
𝑘∗)𝑊
𝑘with 𝑘
∗= argmin
𝑘<𝐾‖𝑦
𝑖− 𝑥̃
𝑘‖
𝑑𝑙
𝜎 = Σ × 𝑑𝑙
Σ
3 × 3
𝐾
Σ
Σ = 1.0
𝐾 = 27
3 × 3 × 3
ℎ
𝑔
𝑥̃
𝑘{𝑥̃
𝑘}
𝐾
∆(𝑥) ∈ ℝ
3×𝐾(ℱ ∗ 𝑔)(𝑥) = ∑ 𝑔
𝑑𝑒𝑓𝑜𝑟𝑚(𝑥
𝑖− 𝑥, ∆(𝑥))𝑓
𝑖 𝑥𝑖∈𝒩𝑥𝑔
𝑑𝑒𝑓𝑜𝑟𝑚(𝑦
𝑖, ∆(𝑥)) = ∑ ℎ(𝑦
𝑖, 𝑥̃
𝑘+ ∆
𝑘(𝑥))𝑊
𝑘 𝑘<𝐾∆
𝑘(
𝑥
)
𝐷
𝑖𝑛3 × 𝐾
ℎ𝑙𝑖𝑛𝑒𝑎𝑟ℒ
𝑓𝑖𝑡ℒ
𝑟𝑒𝑝∈ ℝ
3ℒ
𝑟𝑒𝑔= ∑ ℒ
𝑓𝑖𝑡(𝑥) + ℒ
𝑟𝑒𝑝(𝑥)
𝑥ℒ
𝑓𝑖𝑡(𝑥) = ∑ min
𝑦𝑖(
‖𝑦
𝑖− (𝑥̃
𝑘+ ∆
𝑘(𝑥))‖
𝜎
)
2 𝑘<𝐾ℒ
𝑟𝑒𝑝(𝑥) = ∑ ∑ ℎ(𝑥̃
𝑘+ ∆
𝑘(𝑥), 𝑥̃
𝑙+ ∆
𝑙(𝑥))
2 𝑙≠𝑘 𝑘<𝐾𝒫 ∈ ℝ
𝑁×3ℱ ∈ ℝ
𝑁×𝐷𝑖𝑛𝔑 ∈ ⟦1, 𝑁⟧
𝑁′×𝑛𝑚𝑎𝑥𝑁
′𝑁
𝑛
𝑚𝑎𝑥𝑛
𝑚𝑎𝑥𝔑
𝑗
𝑑𝑙
𝑗𝜎
𝑗= Σ × 𝑑𝑙
𝑗𝜎
𝑑
𝑐𝑒𝑛𝑡𝑒𝑟𝑟
𝑑
𝑐𝑒𝑛𝑡𝑒𝑟𝜌
𝑟
𝑗= 𝜌 × 𝑑𝑙
𝑗𝜌 = 5.0
𝛴
𝜌
𝐾 = 15 𝛴 = 1.0
𝜌 = 5.0
𝑑𝑙
0𝑑𝑙
𝑗+1= 2 × 𝑑𝑙
𝑗𝐷
1 × 1
𝒫
ℱ
𝔑
𝒫
𝔑
𝑙 − 1
𝑙
𝒫
𝔑
𝔑 ∈ ⟦1, 𝑁⟧
𝑁′×𝑛𝑚𝑎𝑥𝑁
′𝑛
𝑚𝑎𝑥𝑛
𝑚𝑎𝑥𝑁
ℱ
ℱ
𝑁 + 1
𝑛
𝑚𝑎𝑥𝑛
𝑚𝑎𝑥𝑁
′× 𝑛
𝑙𝑖𝑚𝑛
𝑙𝑖𝑚𝑛
𝑙𝑖𝑚𝑛
𝑚𝑎𝑥𝑑𝑙
0𝑑𝑙
0= 0.02𝑚
100
310
−30.5
0.1
10
−3𝑅
50 × 𝑑𝑙
0𝑅
𝑑𝑙
0𝑇𝑢𝑘𝑒𝑦(𝑑) = {(1 − (
𝑑
𝑑
𝑇𝑢𝑘)
2)
2𝑖𝑓 𝑑 ≤ 𝑑
𝑇𝑢𝑘0 𝑖𝑓 𝑑 > 𝑑
𝑇𝑢𝑘𝑑
𝑇𝑢𝑘𝑑
𝑇𝑢𝑘= 𝑅/3
𝑑
𝑇𝑢𝑘= 𝑅/3
10
−2[0, 2𝜋]
𝐾
109,000
6,800
(𝑥, 𝑦, 𝑧)
38,000
2,300
𝑑𝑙
0= 6𝑐𝑚
𝑑𝑙
0= 4𝑐𝑚
𝑅 =
RÉSUMÉ
Aujourd’hui, de nouvelles technologies permettent l’acquisition de scènes 3D volumineuses et précises sous la forme de nuages de points. Les nouvelles applications ouvertes par ces technologies, comme les véhicules autonomes ou la maintenance d'infrastructure, reposent sur un traitement efficace des nuages de points à grande échelle. Les méthodes d'apprentissage profond par convolution ne peuvent pas être utilisées directement avec des nuages de points. Dans le cas des images, les filtres convolutifs ont permis l’apprentissage de nouvelles représentations, jusqu’alors construites « à la main » dans les méthodes de vision par ordinateur plus anciennes. En suivant le même raisonnement, nous présentons dans cette thèse une étude des représentations construites « à la main » utilisées pour le traitement des nuages de points. Nous proposons ainsi plusieurs contributions, qui serviront de base à la conception d’une nouvelle représentation convolutive pour le traitement des nuages de points. Parmi elles, une nouvelle définition de voisinages sphériques multi-échelles, une comparaison avec les k plus proches voisins multi-échelles, une nouvelle stratégie d'apprentissage actif, la segmentation sémantique des nuages de points à grande échelle, et une étude de l'influence de la densité dans les représentations multi-échelles. En se basant sur ces contributions, nous introduisons la « Kernel Point Convolution » (KPConv), qui utilise des voisinages sphériques et un noyau défini par des points. Ces points jouent le même rôle que les pixels du noyau des convolutions en image. Nos réseaux convolutionnels surpassent les approches de segmentation sémantique de l’état de l’art dans presque toutes les situations. En plus de ces résultats probants, nous avons conçu KPConv avec une grande flexibilité et une version déformable. Pour conclure notre réflexion, nous proposons plusieurs éclairages sur les représentations que notre méthode est capable d'apprendre.
ABSTRACT
In the recent years, new technologies have allowed the acquisition of large and precise 3D scenes as point clouds. They have opened up new applications like self-driving vehicles or infrastructure monitoring that rely on efficient large scale point cloud processing. Convolutional deep learning methods cannot be directly used with point clouds. In the case of images, convolutional filters brought the ability to learn new representations, which were previously hand-crafted in older computer vision methods. Following the same line of thought, we present in this thesis a study of hand-crafted representations previously used for point cloud processing. We propose several contributions, to serve as basis for the design of a new convolutional representation for point cloud processing. They include a new definition of multiscale radius neighborhood, a comparison with multiscale k-nearest neighbors, a new active learning strategy, the semantic segmentation of large scale point clouds, and a study of the influence of density in multiscale representations. Following these contributions, we introduce the Kernel Point Convolution (KPConv), which uses radius neighborhoods and a set of kernel points to play the role of the kernel pixels in image convolution. Our convolutional networks outperform state-of-the-art semantic segmentation approaches in almost any situation. In addition to these strong results, we designed KPConv with a great flexibility and a deformable version. To conclude our argumentation, we propose several insights on the representations that our method is able to learn.
MOTS CLÉS
3D, apprentissage profond, nuage de points, convolution, sémantisation