• Aucun résultat trouvé

Learning new representations for 3D point cloud semantic segmentation

N/A
N/A
Protected

Academic year: 2021

Partager "Learning new representations for 3D point cloud semantic segmentation"

Copied!
179
0
0

Texte intégral

(1)

HAL Id: tel-02458455

https://pastel.archives-ouvertes.fr/tel-02458455

Submitted on 28 Jan 2020

HAL is a multi-disciplinary open access

archive for the deposit and dissemination of

sci-entific research documents, whether they are

pub-lished or not. The documents may come from

teaching and research institutions in France or

abroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, est

destinée au dépôt et à la diffusion de documents

scientifiques de niveau recherche, publiés ou non,

émanant des établissements d’enseignement et de

recherche français ou étrangers, des laboratoires

publics ou privés.

Hugues Thomas

To cite this version:

Hugues Thomas. Learning new representations for 3D point cloud semantic segmentation. Machine

Learning [cs.LG]. Université Paris sciences et lettres, 2019. English. �NNT : 2019PSLEM048�.

�tel-02458455�

(2)

Préparée à MINES ParisTech

Apprentissage de nouvelles représentations pour la

sémantisation de nuages de points 3D

Learning new representations for 3D point cloud semantic

segmentation

Soutenue par

Hugues THOMAS

Le 19 novembre 2019

Ecole doctorale n° 432

Sciences

et

Métiers

de

l’Ingénieur

Spécialité

Mathématiques,

Informatique Temps-Réel,

Robotique

Composition du jury :

Paul CHECCHIN

Professeur, Université Clermont Auvergne (UCA)

Bruno VALLET

Chargé de recherche, Institut national de l’information géographique et forestière (IGN)

Pascal, MONASSE

Professeur, Ecole Nationale des Ponts et Chaussées

Martin WEINMANN

Chargé de recherche, Karlsruhe Institute of Technology (KIT)

Beatriz MARCOTEGUI

Professeur, Mines ParisTech

Jean-Emmanuel DESCHAUD

Chargé de recherche, Mines ParisTech

François GOULETTE

Professeur, Mines ParisTech

Rapporteur Rapporteur Président Examinateur Examinateur Examinateur Directeur de thèse

(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)

𝜌

(12)

𝑊𝑘𝑘 < 𝐾

𝑓𝑖

ℎ𝑖𝑘

1 × 1

𝐷𝑖𝑛 ≠ 2𝐷

(13)
(14)
(15)
(16)
(17)
(18)
(19)
(20)
(21)
(22)
(23)
(24)
(25)
(26)
(27)
(28)
(29)
(30)
(31)

𝒫

= { (𝑥

𝑖

, 𝑓

𝑖

) | 𝑥

𝑖

∈ ℝ

3

, 𝑓

𝑖

∈ ℝ

𝐷

}

𝑖<𝑁

𝑘

𝑘

(32)
(33)

3

𝒫

𝒫 = {𝑥

𝑖

∈ ℝ

3

}

𝑖<𝑁

𝑁

𝒫

𝒫 ∈ ℝ

𝑁×3

𝒫

= { (𝑥

𝑖

, 𝑓

𝑖

) | 𝑥

𝑖

∈ ℝ

3

, 𝑓

𝑖

∈ ℝ

𝐷

}

𝑖<𝑁

𝐷

ℱ ∈ ℝ

𝑁×𝐷

𝒫 ∈ ℝ

𝑁×3

𝒫

(34)
(35)
(36)
(37)
(38)
(39)
(40)
(41)
(42)
(43)
(44)
(45)
(46)

𝑦

0

∈ ℝ

3

𝒫 = {𝑥

𝑖

∈ ℝ

3

}

𝑖<𝑁

𝑥

𝑖

𝑦

0

𝑦

0

𝑥

𝑖

𝑦

0

𝑟 ∈ ℝ

𝑟

𝑦

0

𝒩

𝑟𝑎𝑑𝑖𝑢𝑠

(𝑦

0

, 𝒫, 𝑟) = { 𝑥

𝑖

∈ 𝒫 | ‖𝑦

0

− 𝑥

𝑖

‖ ≤ 𝑟 }

𝑦

0

𝑘

𝑦

0

𝒩

𝐾𝑁𝑁

(𝑦

0

, 𝒫, 𝑘) = {𝑥

𝑖

∈ 𝒫 | ‖𝑦

0

− 𝑥

𝑖

‖ ≤ ‖𝑦

0

− 𝑥

𝑖+1

‖, 𝑖 < 𝑘 }

𝑥

𝑖

𝑦

0

𝑟 ∈ ℝ

𝐻

𝑃

𝐻

𝐻

𝒩

𝑐𝑦𝑙

(𝑦

0

, 𝒫, 𝑟, 𝐻) = { 𝑥

𝑖

∈ 𝒫 | ‖𝑃

𝐻

(𝑦

0

) − 𝑃

𝐻

(𝑥

𝑖

)‖ ≤ 𝑟 }

(47)
(48)
(49)
(50)
(51)
(52)
(53)
(54)
(55)

𝑘

𝑘 = 3

(56)

𝑇

𝑇

𝜎

𝑛

𝑁

𝑃(𝑖𝑛𝑙𝑖𝑒𝑟) = 𝑛 𝑁

𝑃(𝑎𝑙𝑤𝑎𝑦𝑠 𝑓𝑎𝑙𝑠𝑒) = (1 − (𝑛 𝑁

⁄ )

𝑘

)

𝑇

𝑃(𝑠𝑢𝑐𝑒𝑠𝑠𝑓𝑢𝑙 𝑟𝑎𝑛𝑠𝑎𝑐) = 1 − (1 − (𝑛 𝑁

⁄ )

𝑘

)

𝑇

𝑇

𝑚𝑖𝑛

𝑝

𝑇

𝑚𝑖𝑛

=

log(1 − 𝑝)

log(1 − (𝑛 𝑁

⁄ )

𝑘

)

𝑇

𝑚𝑖𝑛

=

log(1 − 0.99)

log(1 − 0.5

3

)

= 35

(57)

𝑛 → 𝑁

𝑇

𝑚𝑖𝑛

= 1

𝑘 > 3

𝑛 ≪ 𝑁

𝑇

𝑚𝑖𝑛

~ log (

1

1 − 𝑝

) (

𝑁

𝑛

)

𝑘

~ 𝑂 ((

𝑁

𝑛

)

𝑘

)

𝑂(𝑁 + 𝑛𝑙𝑜𝑔(𝑁))

𝑛 → 𝑁

𝑂(𝑁𝑙𝑜𝑔(𝑁))

(58)
(59)
(60)

(61)
(62)
(63)
(64)
(65)
(66)
(67)
(68)

(69)

𝐶 ⊂ ℝ

3

𝐩

(70)

𝒩(𝐩

𝟎

, 𝐶, 𝑟) = {𝐩 ∈ 𝐶 | ‖𝐩

𝟎

− 𝐩‖ ≤ 𝑟}

(71)

𝑙 ∈ ℝ

𝑟 ∈ ℝ

𝜌 =

𝑟 𝑙

𝜌

𝑟

0

𝑆

𝜑

𝑠 ∈ {0, … , 𝑆 − 1}

𝐩

𝟎

∈ ℝ

3

𝒩

𝑠

(𝐩

𝟎

) = 𝒩(𝐩

𝟎

, 𝐶

𝑠

, 𝑟

𝑠

)

𝑟

𝑠

= 𝑟

0

× 𝜑

𝑠

𝑠

𝐶

𝑠

𝑟

𝑠

𝜌

(72)

𝜆

1

> 𝜆

2

> 𝜆

3

∈ ℝ

𝐞

1

, 𝐞

2

, 𝐞

3

∈ ℝ

3

cov(𝒩) =

1

|𝒩|

∑ (𝐩 − 𝐩̅)(𝐩 − 𝐩̅)

𝑇 𝐩∈𝒩

∑ 𝜆

𝑖

(∏ 𝜆

𝑖

)

1 3 ⁄

− ∑ 𝜆

𝑖

ln(𝜆

𝑖

)

(𝜆

1

− 𝜆

2

) 𝜆

1

(𝜆

2

− 𝜆

3

) 𝜆

1

𝜆

3

𝜆

1

𝜆

3

(𝜆

1

+ 𝜆

2

+ 𝜆

3

)

× 2

|

𝜋

2

− angle(𝐞

𝑖

− 𝐞

𝑧

)|

𝑖∈[0,2]

× 6

1

|𝒩|

|∑⟨𝐩 − 𝐩

𝟎

|𝐞

𝑖

𝑘

|

𝑖∈[0,1,2] 𝑘∈[1,2]

× 2

|𝒩|

1

∑⟨𝐩 − 𝐩

𝟎

|𝐞

𝑖

𝑘 𝑘∈[1,2]

|𝒩|

(73)

𝐩̅

𝒩

(𝜆

1

− 𝜆

3

) 𝜆

1

|𝜋/2 − angle(𝐞

𝑖

− 𝐞

𝑧

)|

𝐞

𝑧

𝑆 = 8

𝑟

0

= 0.1𝑚

𝜑 = 2

𝜌 = 5

𝑆, 𝑟

0

, 𝜑

ρ

𝐹

1

𝐹

1

=

2𝑇𝑃

2𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁

IoU =

𝑇𝑃

𝑇𝑃 + 𝐹𝑃 + 𝐹𝑁

=

𝐹

1

2 − 𝐹

1

(74)

𝑇𝑃 𝐹𝑃

𝐹𝑁

± ± ± ± ± ± ± ± ± ± ± ± ±

(75)

𝒯

𝒰

𝒰

𝒯

(76)

𝑛0 𝑛𝑖𝑛𝑐 𝑖𝑚𝑎𝑥 𝒫 𝐶 𝒫𝑐 𝑐 𝒯0= ⋃ {(𝑝𝑗)𝑗<𝑛 0 | 𝑝𝑗∈𝒫𝑐} 𝑐<𝐶 𝑖 = 0 𝑖𝑚𝑎𝑥 𝒯𝑖 𝒰𝑖=𝒫∖ 𝒯𝑖 ℰ. 𝒯𝑖+1= 𝒯𝑖 ∪ {(𝑝𝑗)𝑗<𝑛 𝑖𝑛𝑐 | 𝑝𝑗∈ ℰ}

𝑛

0

= 100

𝑛

𝑖𝑛𝑐

= 300

𝑖

𝑚𝑎𝑥

= 18

(77)
(78)

𝑛

0

= 200

𝑛

𝑖𝑛𝑐

= 1,800

𝑖

𝑚𝑎𝑥

= 50

𝐹

1

(79)

𝑆 = 8

𝑟

0

= 0.05𝑚

𝜑 = 2

𝜌 = 5

𝑛

0

= 1,000

𝑛

𝑖𝑛𝑐

= 2,000

𝑖

𝑚𝑎𝑥

= 20

(80)

𝐹1

(81)
(82)
(83)

× 3

1

|𝒩|

∑ 𝑐

× 3

1

|𝒩| − 1

∑(𝑐 − 𝑐̅)

2

𝑆 = 8

𝑟

0

= 0.05𝑚

𝜑 = 2

𝜌 = 5

𝑆 = 8

𝑟

0

= 0.1𝑚

𝜑 = 2

𝜌 = 5

𝑛

0

= 1,000

𝑛

𝑖𝑛𝑐

= 2,000

𝑖

𝑚𝑎𝑥

= 20

(84)
(85)
(86)
(87)
(88)

𝜌

𝜌

𝜌

𝜌 = 3

𝜌

𝜌

𝜌 = 5

𝜌

𝜌

𝜌

3 × 3

𝜌

(89)
(90)
(91)
(92)
(93)

(94)
(95)
(96)

256

3

(97)

𝐹

𝑔

𝐹 ∗ 𝑔 = ℱ

−1

(ℱ(𝐹) ⊙ ℱ(𝑔))

𝑈

𝑥

𝑥̂ = ℱ(𝑥) = 𝑈

𝑇

𝑥

𝑥 = ℱ

−1

(𝑥̂) = 𝑈𝑥̂

𝐹 ∗ 𝑔 = 𝑈(𝑈

𝑇

𝐹 ⊙ 𝑈

𝑇

𝑔)

𝑈

𝑇

𝑔

𝑈

𝑇

𝑔

Θ

𝐹 ∗ 𝑔 = 𝑈Θ𝑈

𝑇

𝐹

Θ

(98)
(99)
(100)

𝑀𝐿𝑃(ℎ

1

, … , ℎ

𝑙

)

𝑙

𝑖

𝑖

1 × 1

(101)

2

2

(102)

64 × 64

3 × 3

(103)
(104)

𝐼

𝑔

𝑥

(𝐼 ∗ 𝑔)(𝑥) = ∑ 𝑔(𝑥

𝑖

− 𝑥)𝐼(𝑥

𝑖

)

𝑥𝑖∈𝒩𝑥

𝒩

𝑥

𝑥

𝑥

𝑥

𝑖

2

𝑔

𝑥

𝑥

𝑥

𝑖

3

𝑔

𝑥

𝑖

𝑓

𝑖

𝒫 ∈ ℝ

𝑁×3

ℱ ∈ ℝ

𝑁×𝐷

𝑔

𝑥 ∈ ℝ

3

(ℱ ∗ 𝑔)(𝑥) = ∑ 𝑔(𝑥

𝑖

− 𝑥)𝑓

𝑖 𝑥𝑖∈𝒩𝑥

(105)

𝑓

𝑖

𝐷

𝑔

𝑂

𝑂

𝑔

𝑥

𝑦

𝑖

= 𝑥

𝑖

− 𝑥

𝑔

3

3

𝑔

3

𝑔

𝑔 = 𝑀𝐿𝑃(16,32, 𝐷 × 𝑂)

𝐷 × 𝑂

𝐾

(106)

𝑲

𝑊

𝐾

𝜒

𝜒(𝑥) = 𝑁𝑒𝑡(𝒩

𝑥

)

𝑁𝑒𝑡

𝜒

𝐾 × 𝐾

𝜒

𝑥

𝜒

𝜒conv (𝑥) = ∑ 𝑊

𝑘

(∑ 𝜒

𝑖𝑘

(𝑥)[𝑀𝐿𝑃(𝑦

𝑖

), 𝑓

𝑖

]

𝑖<𝐾

)

𝑘<𝐾

[… , … ]

𝜒conv (𝑥) = ∑ 𝑊

𝑘1

(∑ 𝜒

𝑖𝑘

(𝑥)𝑀𝐿𝑃(𝑦

𝑖

)

𝑖<𝐾

)

𝑘<𝐾

+ ∑ 𝑊

𝑘2

(∑ 𝜒

𝑖𝑘

(𝑥)𝑓

𝑖 𝑖<𝐾

)

𝑘<𝐾

𝜒

𝑖𝑘

𝜒

𝑁𝑒𝑡

𝐾

𝑁𝑒𝑡

𝑁𝑒𝑡

𝜒

(107)

(ℱ ∗ 𝑔)(𝑥) =

1

|𝒩

𝑥

|

1

𝑝(𝑥

𝑖

|𝑥)

𝑔(𝑥

𝑖

− 𝑥)𝑓

𝑖 𝑥𝑖∈𝒩𝑥

𝑔

𝐷 × 𝑂

𝑔

𝑀𝐿𝑃(8,8,1)

𝑀𝐿𝑃(8,8,8)

𝑀𝐿𝑃(8,8,1)

𝑔

𝐷

𝐷 × 𝑂

1 × 1

𝑔

𝑔(𝑦

𝑖

) =

𝑤𝑉(𝑖) 𝑛𝑉(𝑖)

𝑉(𝑖)

𝑦

𝑖

𝑤

𝑛

(108)

3

3

= 27

𝑔

𝑔(𝑦

𝑖

) = 𝑔

𝑠𝑡𝑒𝑝

(𝑦

𝑖

) ∙ 𝑔

𝑇𝑎𝑦𝑙𝑜𝑟

(𝑦

𝑖

)

𝑔

𝑠𝑡𝑒𝑝

𝑔

𝑇𝑎𝑦𝑙𝑜𝑟

𝑔

𝑔(𝑦

𝑖

) = 𝑤

𝑖

∙ 𝑔

𝑇𝑎𝑦𝑙𝑜𝑟

(𝑦

𝑖

)

𝑤

𝑖

𝑖

𝑔

3

𝑔

𝐷 × 𝑂

3

∀𝑑 < 𝐷,

∀𝑜 < 𝑂,

𝑔

𝑑,𝑜

(𝑦

𝑖

) = 𝑊

𝑑,𝑜

𝑦

𝑖

+ 𝑏

𝑑,𝑜

𝐷 × 𝑂 × 4

𝑔

𝑔(𝑦

𝑖

) = ∑ Φ(|𝑦

𝑖

− 𝑥̃

𝑘

|)𝑊

𝑘 𝑘<𝐾

Φ

𝑦

𝑖

𝑥̃

𝑘

𝐷 × 𝑂

𝑊

𝑘

𝑥̃

𝑘

(109)
(110)
(111)
(112)

𝑔

𝑥

3

𝒩

𝑥

= {𝑥

𝑖

∈ 𝒫 | ‖𝑥

𝑖

− 𝑥‖ ≤ 𝑟}

𝑦

𝑖

= 𝑥

𝑖

− 𝑥

𝑟3

= {𝑦 ∈ ℝ

3

| ‖𝑦‖ ≤ 𝑟} ℬ

𝑟3

𝑔

𝑔

{𝑥̃

𝑘

}

𝑘<𝐾

𝐾

{𝑊

𝑘

}

𝑘<𝐾

𝐷

𝑖𝑛

𝐷

𝑜𝑢𝑡

∀𝑘 < 𝐾 𝑥̃

𝑘

∈ ℬ

𝑟3

𝑊

𝑘

∈ ℝ

𝐷𝑖𝑛×𝐷𝑜𝑢𝑡

𝑔

𝑦

𝑖

∈ ℬ

𝑟3

𝑔(𝑦

𝑖

) = ∑ ℎ(𝑦

𝑖

, 𝑥̃

𝑘

)𝑊

𝑘 𝑘<𝐾

𝑥̃

𝑘

𝑦

𝑖

𝑥̃

𝑘

𝑦

𝑖

ℎ(𝑦

𝑖

, 𝑥̃

𝑘

) = max (0, 1 −

‖𝑦

𝑖

− 𝑥̃

𝑘

𝜎

)

(𝑊𝑘)𝑘<𝐾 𝑓𝑖 ℎ𝑖𝑘

(113)

𝜎

𝐾

𝐾

𝑥̃

𝑘

∀𝑥 ∈ ℝ

3

,

𝐸

𝑘𝑟𝑒𝑝

(𝑥) =

1

‖𝑥 − 𝑥̃

𝑘

∀𝑥 ∈ ℝ

3

,

𝐸

𝑎𝑡𝑡

(𝑥) = ‖𝑥‖

2

𝐸

𝑡𝑜𝑡

= ∑ (𝐸

𝑎𝑡𝑡

(𝑥̃

𝑘

) + ∑ (𝐸

𝑘𝑟𝑒𝑝

(𝑥̃

𝑙

))

𝑙≠𝑘

)

𝑘<𝐾

𝐾

𝑟

𝑜𝑟𝑏𝑖𝑡

𝑟

𝜎

𝜎

𝑟

𝑜𝑟𝑏𝑖𝑡

= 1.5 × 𝜎

(114)

𝑟 = 2.5 × 𝜎

𝜎

𝐾

(2𝑘 + 1)

𝑑𝑖𝑚

𝑘

𝑑𝑖𝑚

(115)

𝑟

𝑜𝑟𝑏𝑖𝑡

𝜎

𝑙𝑖𝑛𝑒𝑎𝑟

(𝑦

𝑖

, 𝑥̃

𝑘

) = max (0, 1 −

‖𝑦

𝑖

− 𝑥̃

𝑘

(116)

𝑔𝑎𝑢𝑠𝑠𝑖𝑎𝑛

(𝑦

𝑖

, 𝑥̃

𝑘

) = exp (

−‖𝑦

𝑖

− 𝑥̃

𝑘

2

2𝜎

2

)

𝑟𝑒𝑐𝑡

(𝑦

𝑖

, 𝑥̃

𝑘

) = {

0, else

1, if ‖𝑦

𝑖

− 𝑥̃

𝑘

‖ < 𝜎

𝑔

𝑔(𝑦

𝑖

) = ∑ ℎ(𝑦

𝑖

, 𝑥̃

𝑘

)𝑊

𝑘 𝑘<𝐾

𝑔(𝑦

𝑖

) = ℎ(𝑦

𝑖

, 𝑥̃

𝑘∗

)𝑊

𝑘

with 𝑘

= argmin

𝑘<𝐾

‖𝑦

𝑖

− 𝑥̃

𝑘

(117)

𝑑𝑙

𝜎 = Σ × 𝑑𝑙

Σ

3 × 3

𝐾

Σ

Σ = 1.0

𝐾 = 27

3 × 3 × 3

(118)

𝑔

𝑥̃

𝑘

{𝑥̃

𝑘

}

𝐾

∆(𝑥) ∈ ℝ

3×𝐾

(ℱ ∗ 𝑔)(𝑥) = ∑ 𝑔

𝑑𝑒𝑓𝑜𝑟𝑚

(𝑥

𝑖

− 𝑥, ∆(𝑥))𝑓

𝑖 𝑥𝑖∈𝒩𝑥

𝑔

𝑑𝑒𝑓𝑜𝑟𝑚

(𝑦

𝑖

, ∆(𝑥)) = ∑ ℎ(𝑦

𝑖

, 𝑥̃

𝑘

+ ∆

𝑘

(𝑥))𝑊

𝑘 𝑘<𝐾

𝑘

(

𝑥

)

𝐷

𝑖𝑛

3 × 𝐾

ℎ𝑙𝑖𝑛𝑒𝑎𝑟

(119)
(120)

𝑓𝑖𝑡

𝑟𝑒𝑝

∈ ℝ

3

𝑟𝑒𝑔

= ∑ ℒ

𝑓𝑖𝑡

(𝑥) + ℒ

𝑟𝑒𝑝

(𝑥)

𝑥

𝑓𝑖𝑡

(𝑥) = ∑ min

𝑦𝑖

(

‖𝑦

𝑖

− (𝑥̃

𝑘

+ ∆

𝑘

(𝑥))‖

𝜎

)

2 𝑘<𝐾

𝑟𝑒𝑝

(𝑥) = ∑ ∑ ℎ(𝑥̃

𝑘

+ ∆

𝑘

(𝑥), 𝑥̃

𝑙

+ ∆

𝑙

(𝑥))

2 𝑙≠𝑘 𝑘<𝐾

(121)
(122)

𝒫 ∈ ℝ

𝑁×3

ℱ ∈ ℝ

𝑁×𝐷𝑖𝑛

𝔑 ∈ ⟦1, 𝑁⟧

𝑁′×𝑛𝑚𝑎𝑥

𝑁

𝑁

𝑛

𝑚𝑎𝑥

𝑛

𝑚𝑎𝑥

𝔑

𝑗

𝑑𝑙

𝑗

𝜎

𝑗

= Σ × 𝑑𝑙

𝑗

𝜎

𝑑

𝑐𝑒𝑛𝑡𝑒𝑟

𝑟

𝑑

𝑐𝑒𝑛𝑡𝑒𝑟

𝜌

𝑟

𝑗

= 𝜌 × 𝑑𝑙

𝑗

𝜌 = 5.0

𝛴

𝜌

𝐾 = 15 𝛴 = 1.0

𝜌 = 5.0

𝑑𝑙

0

𝑑𝑙

𝑗+1

= 2 × 𝑑𝑙

𝑗

𝐷

(123)
(124)

1 × 1

𝒫

𝔑

𝒫

𝔑

𝑙 − 1

𝑙

(125)

𝒫

𝔑

𝔑 ∈ ⟦1, 𝑁⟧

𝑁′×𝑛𝑚𝑎𝑥

𝑁

𝑛

𝑚𝑎𝑥

𝑛

𝑚𝑎𝑥

(126)

𝑁

𝑁 + 1

𝑛

𝑚𝑎𝑥

𝑛

𝑚𝑎𝑥

𝑁

× 𝑛

𝑙𝑖𝑚

𝑛

𝑙𝑖𝑚

𝑛

𝑙𝑖𝑚

𝑛

𝑚𝑎𝑥

(127)

𝑑𝑙

0

𝑑𝑙

0

= 0.02𝑚

100

3

10

−3

0.5

0.1

10

−3

(128)

𝑅

50 × 𝑑𝑙

0

𝑅

𝑑𝑙

0

𝑇𝑢𝑘𝑒𝑦(𝑑) = {(1 − (

𝑑

𝑑

𝑇𝑢𝑘

)

2

)

2

𝑖𝑓 𝑑 ≤ 𝑑

𝑇𝑢𝑘

0 𝑖𝑓 𝑑 > 𝑑

𝑇𝑢𝑘

𝑑

𝑇𝑢𝑘

𝑑

𝑇𝑢𝑘

= 𝑅/3

𝑑

𝑇𝑢𝑘

= 𝑅/3

(129)

10

−2

(130)

[0, 2𝜋]

(131)

𝐾

(132)

109,000

6,800

(𝑥, 𝑦, 𝑧)

38,000

2,300

(133)
(134)
(135)

𝑑𝑙

0

= 6𝑐𝑚

𝑑𝑙

0

= 4𝑐𝑚

𝑅 =

(136)

(137)

(138)
(139)
(140)
(141)
(142)
(143)
(144)
(145)
(146)
(147)
(148)
(149)
(150)
(151)
(152)
(153)
(154)
(155)
(156)
(157)
(158)
(159)
(160)
(161)
(162)
(163)
(164)
(165)
(166)
(167)
(168)
(169)
(170)
(171)
(172)
(173)
(174)
(175)
(176)
(177)
(178)
(179)

RÉSUMÉ

Aujourd’hui, de nouvelles technologies permettent l’acquisition de scènes 3D volumineuses et précises sous la forme de nuages de points. Les nouvelles applications ouvertes par ces technologies, comme les véhicules autonomes ou la maintenance d'infrastructure, reposent sur un traitement efficace des nuages de points à grande échelle. Les méthodes d'apprentissage profond par convolution ne peuvent pas être utilisées directement avec des nuages de points. Dans le cas des images, les filtres convolutifs ont permis l’apprentissage de nouvelles représentations, jusqu’alors construites « à la main » dans les méthodes de vision par ordinateur plus anciennes. En suivant le même raisonnement, nous présentons dans cette thèse une étude des représentations construites « à la main » utilisées pour le traitement des nuages de points. Nous proposons ainsi plusieurs contributions, qui serviront de base à la conception d’une nouvelle représentation convolutive pour le traitement des nuages de points. Parmi elles, une nouvelle définition de voisinages sphériques multi-échelles, une comparaison avec les k plus proches voisins multi-échelles, une nouvelle stratégie d'apprentissage actif, la segmentation sémantique des nuages de points à grande échelle, et une étude de l'influence de la densité dans les représentations multi-échelles. En se basant sur ces contributions, nous introduisons la « Kernel Point Convolution » (KPConv), qui utilise des voisinages sphériques et un noyau défini par des points. Ces points jouent le même rôle que les pixels du noyau des convolutions en image. Nos réseaux convolutionnels surpassent les approches de segmentation sémantique de l’état de l’art dans presque toutes les situations. En plus de ces résultats probants, nous avons conçu KPConv avec une grande flexibilité et une version déformable. Pour conclure notre réflexion, nous proposons plusieurs éclairages sur les représentations que notre méthode est capable d'apprendre.

ABSTRACT

In the recent years, new technologies have allowed the acquisition of large and precise 3D scenes as point clouds. They have opened up new applications like self-driving vehicles or infrastructure monitoring that rely on efficient large scale point cloud processing. Convolutional deep learning methods cannot be directly used with point clouds. In the case of images, convolutional filters brought the ability to learn new representations, which were previously hand-crafted in older computer vision methods. Following the same line of thought, we present in this thesis a study of hand-crafted representations previously used for point cloud processing. We propose several contributions, to serve as basis for the design of a new convolutional representation for point cloud processing. They include a new definition of multiscale radius neighborhood, a comparison with multiscale k-nearest neighbors, a new active learning strategy, the semantic segmentation of large scale point clouds, and a study of the influence of density in multiscale representations. Following these contributions, we introduce the Kernel Point Convolution (KPConv), which uses radius neighborhoods and a set of kernel points to play the role of the kernel pixels in image convolution. Our convolutional networks outperform state-of-the-art semantic segmentation approaches in almost any situation. In addition to these strong results, we designed KPConv with a great flexibility and a deformable version. To conclude our argumentation, we propose several insights on the representations that our method is able to learn.

MOTS CLÉS

3D, apprentissage profond, nuage de points, convolution, sémantisation

KEYWORDS

Références

Documents relatifs

(ii) The definition and the management of strategy are built on the creation and exploitation of competencies that, in turns, lead to sustainable competitive advantages : Inspite

have been developed such as Fully Convolutional Network (FCN) [Lon15a], deep fully convolutional neural network architecture for semantic pixel-wise segmentation (SegNet) [Bad15a],

Illustration of the proposed method : (a) regions for feature calculation (orange : sliding window, red : superpixel) ; (b) example image from the L ´ Or´eal database (this image

While the Jaccard index of the BG class is equally improved using different data augmentation techniques, the networks trained with color transfer give better results for the

There are 5 methods under evaluation: Baseline (PointNet++), P4UCC, Spherical DZNet, ResGANet and GRanD-Net. P4UCC is based on a combination of 4 hand-crafted detectors, the other

From left to right: ground truth ˜ A for the MIC- CAI12 dataset, after training without constraint, after training with NonAd- jLoss, after semi-supervised training of NonAdjLoss

To do so, the 48×2D convolution neurons input layer of the reference model is removed thus enabling all the in- put spectral bands to feed a new first dense block exclusively

In ocean remote sensing, the absence of such groundtruthed datasets make particularly challenging the semantic interpretation of ocean scences from the SAR imagery.. In this paper,