150 lines
5.5 KiB
Markdown
150 lines
5.5 KiB
Markdown
|
|
<!--Copyright 2023 The HuggingFace Team. All rights reserved.
|
||
|
|
|
||
|
|
Licensed under the Apache License, Version 2.0 (the "License"); you may not use this file except in compliance with
|
||
|
|
the License. You may obtain a copy of the License at
|
||
|
|
|
||
|
|
http://www.apache.org/licenses/LICENSE-2.0
|
||
|
|
|
||
|
|
Unless required by applicable law or agreed to in writing, software distributed under the License is distributed on
|
||
|
|
an "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. See the License for the
|
||
|
|
specific language governing permissions and limitations under the License.
|
||
|
|
|
||
|
|
⚠️ Note that this file is in Markdown but contain specific syntax for our doc-builder (similar to MDX) that may not be
|
||
|
|
rendered properly in your Markdown viewer.
|
||
|
|
|
||
|
|
-->
|
||
|
|
|
||
|
|
# Monocular depth estimation
|
||
|
|
|
||
|
|
単眼奥行き推定は、シーンの奥行き情報を画像から予測することを含むコンピューター ビジョン タスクです。
|
||
|
|
単一の画像。言い換えれば、シーン内のオブジェクトの距離を距離から推定するプロセスです。
|
||
|
|
単一カメラの視点。
|
||
|
|
|
||
|
|
単眼奥行き推定には、3D 再構築、拡張現実、自動運転、
|
||
|
|
そしてロボット工学。モデルがオブジェクト間の複雑な関係を理解する必要があるため、これは困難な作業です。
|
||
|
|
シーンとそれに対応する深度情報(照明条件などの要因の影響を受ける可能性があります)
|
||
|
|
オクルージョンとテクスチャ。
|
||
|
|
|
||
|
|
<Tip>
|
||
|
|
|
||
|
|
このタスクと互換性のあるすべてのアーキテクチャとチェックポイントを確認するには、[タスクページ](https://huggingface.co/tasks/depth-estimation) を確認することをお勧めします。
|
||
|
|
|
||
|
|
</Tip>
|
||
|
|
|
||
|
|
このガイドでは、次の方法を学びます。
|
||
|
|
|
||
|
|
* 深度推定パイプラインを作成する
|
||
|
|
* 手動で深度推定推論を実行します
|
||
|
|
|
||
|
|
始める前に、必要なライブラリがすべてインストールされていることを確認してください。
|
||
|
|
|
||
|
|
```bash
|
||
|
|
pip install -q transformers
|
||
|
|
```
|
||
|
|
|
||
|
|
## Depth estimation pipeline
|
||
|
|
|
||
|
|
深度推定をサポートするモデルで推論を試す最も簡単な方法は、対応する [`pipeline`] を使用することです。
|
||
|
|
[Hugging Face Hub のチェックポイント](https://huggingface.co/models?pipeline_tag=Depth-estimation&sort=downloads) からパイプラインをインスタンス化します。
|
||
|
|
|
||
|
|
|
||
|
|
```py
|
||
|
|
>>> from transformers import pipeline
|
||
|
|
|
||
|
|
>>> checkpoint = "vinvino02/glpn-nyu"
|
||
|
|
>>> depth_estimator = pipeline("depth-estimation", model=checkpoint)
|
||
|
|
```
|
||
|
|
|
||
|
|
次に、分析する画像を選択します。
|
||
|
|
|
||
|
|
```py
|
||
|
|
>>> from PIL import Image
|
||
|
|
>>> import requests
|
||
|
|
|
||
|
|
>>> url = "https://unsplash.com/photos/HwBAsSbPBDU/download?ixid=MnwxMjA3fDB8MXxzZWFyY2h8MzR8fGNhciUyMGluJTIwdGhlJTIwc3RyZWV0fGVufDB8MHx8fDE2Nzg5MDEwODg&force=true&w=640"
|
||
|
|
>>> image = Image.open(requests.get(url, stream=True).raw)
|
||
|
|
>>> image
|
||
|
|
```
|
||
|
|
|
||
|
|
<div class="flex justify-center">
|
||
|
|
<img src="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/depth-estimation-example.jpg" alt="Photo of a busy street"/>
|
||
|
|
</div>
|
||
|
|
|
||
|
|
画像をパイプラインに渡します。
|
||
|
|
|
||
|
|
```py
|
||
|
|
>>> predictions = depth_estimator(image)
|
||
|
|
```
|
||
|
|
|
||
|
|
パイプラインは 2 つのエントリを含む辞書を返します。最初のものは`predicted_ Depth`と呼ばれ、次の値を持つテンソルです。
|
||
|
|
深さは各ピクセルのメートル単位で表されます。
|
||
|
|
2 番目の`depth`は、深度推定結果を視覚化する PIL 画像です。
|
||
|
|
|
||
|
|
視覚化された結果を見てみましょう。
|
||
|
|
|
||
|
|
```py
|
||
|
|
>>> predictions["depth"]
|
||
|
|
```
|
||
|
|
|
||
|
|
<div class="flex justify-center">
|
||
|
|
<img src="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/depth-visualization.png" alt="Depth estimation visualization"/>
|
||
|
|
</div>
|
||
|
|
|
||
|
|
## Depth estimation inference by hand
|
||
|
|
|
||
|
|
深度推定パイプラインの使用方法を理解したので、同じ結果を手動で複製する方法を見てみましょう。
|
||
|
|
|
||
|
|
まず、[Hugging Face Hub のチェックポイント](https://huggingface.co/models?pipeline_tag=Depth-estimation&sort=downloads) からモデルと関連プロセッサをロードします。
|
||
|
|
ここでは、前と同じチェックポイントを使用します。
|
||
|
|
|
||
|
|
|
||
|
|
```py
|
||
|
|
>>> from transformers import AutoImageProcessor, AutoModelForDepthEstimation
|
||
|
|
|
||
|
|
>>> checkpoint = "vinvino02/glpn-nyu"
|
||
|
|
|
||
|
|
>>> image_processor = AutoImageProcessor.from_pretrained(checkpoint)
|
||
|
|
>>> model = AutoModelForDepthEstimation.from_pretrained(checkpoint)
|
||
|
|
```
|
||
|
|
|
||
|
|
必要な画像変換を処理する`image_processor`を使用して、モデルの画像入力を準備します。
|
||
|
|
サイズ変更や正規化など:
|
||
|
|
|
||
|
|
```py
|
||
|
|
>>> pixel_values = image_processor(image, return_tensors="pt").pixel_values
|
||
|
|
```
|
||
|
|
|
||
|
|
準備された入力をモデルに渡します。
|
||
|
|
|
||
|
|
```py
|
||
|
|
>>> import torch
|
||
|
|
|
||
|
|
>>> with torch.no_grad():
|
||
|
|
... outputs = model(pixel_values)
|
||
|
|
... predicted_depth = outputs.predicted_depth
|
||
|
|
```
|
||
|
|
|
||
|
|
結果を視覚化します。
|
||
|
|
|
||
|
|
|
||
|
|
```py
|
||
|
|
>>> import numpy as np
|
||
|
|
|
||
|
|
>>> # interpolate to original size
|
||
|
|
>>> prediction = torch.nn.functional.interpolate(
|
||
|
|
... predicted_depth.unsqueeze(1),
|
||
|
|
... size=image.size[::-1],
|
||
|
|
... mode="bicubic",
|
||
|
|
... align_corners=False,
|
||
|
|
... ).squeeze()
|
||
|
|
>>> output = prediction.numpy()
|
||
|
|
|
||
|
|
>>> formatted = (output * 255 / np.max(output)).astype("uint8")
|
||
|
|
>>> depth = Image.fromarray(formatted)
|
||
|
|
>>> depth
|
||
|
|
```
|
||
|
|
|
||
|
|
<div class="flex justify-center">
|
||
|
|
<img src="https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/transformers/tasks/depth-visualization.png" alt="Depth estimation visualization"/>
|
||
|
|
</div>
|