Unet Point Detection

ResNet18 + U-Net 風デコーダで、画像中の目標位置をヒートマップ回帰するプロジェクトです。
学習時は CVAT の annotations.xml から座標を読み取り、推論時は画像ごとの (x, y, conf) を pred.csv に出力します。

特徴

このコードは、以下のように学習データが 1 つ上の階層にある前提です（train.py / predict.py のデフォルト値）。

...
├─ dataset/
│  ├─ images/
│  │  ├─ frame_000001.jpg
│  │  └─ ...
│  └─ annotations.xml
└─ code/
	 ├─ train.py
	 ├─ predict.py
	 └─ ...

ラベル名を変える場合は NeedleTipDataset(..., label_name="...") を変更してください。

winget install --id=astral-sh.uv -e

pyproject.toml は CUDA 13.0 向けの PyTorch インデックスを参照します。

uv sync

uv sync で .venv が自動作成され、依存がインストールされます。

GPU/ドライバ条件に合わない場合は、環境に合わせて torch / torchvision のバージョンを調整してください。

uv run python torch_check.py

uv run python train.py

デフォルト設定:

生成物:

uv run python predict.py

デフォルト入力/出力:

出力ファイル:

pred.csv の (x, y) は元画像座標系へスケールバックされた値です。

FileNotFoundError が出る
- ../dataset/images と ../dataset/annotations.xml の配置を確認してください。
CUDA が使えない
- uv run python torch_check.py で確認し、PyTorch の CUDA バージョンを環境に合わせてください。
学習が遅い/落ちる
- train.py の batch_size と num_workers を下げてください。