안녕하세요

BrianaAI입니다.

 

YOLO 환경 셋팅하는데 내부 requirements.txt 로 설치했는데, 코드 실행이 안되더라구요.

 

여러 에러를 찾아봤는데 원인은 다양하게 있었어요.

처음에는 메모리 문제인지 알았으나, 아니였던 것 같습니다.

 

결과 미리보기

pre-conclusion: You need to change torch and torchvision version when you use H100 server with CUDA 11.8 over
torch : 2.0.1+cu118
torchvision: 0.17.2

 

 

 

 

 

1) CUDA 맞게 활성화 되고 있는지 확인.

 

import torch
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
t = torch.tensor([1,2], device=device)

 

위 문장을 수행했더니 커맨드창에 warning으로 

PC에 설치된 pytorch 버전과 sm_90이 호환이 안된다고 하네요.

H100 서버에서 CUDA와 pytorch 버전이 충돌난 것 같습니다.

 

https://pytorch.org/get-started/locally/

 

Start Locally

Start Locally

pytorch.org

 

커맨드창에 여기서 확인(위 링크)하라고해서

운영체제에 맞게 셋팅값을 설정 후 command를 실행해주니, 우선 성공적으로 설치는 진행됐습니다.

 

근데 이것만 설치해주면 되는게 아니고 거기에 맞는 torchvision도 설치해주어야합니다.

 

2.0.1+cu118 에 맞는 torchvision 확인하기 위해서

https://pytorch.org/get-started/previous-versions/

 

Previous PyTorch Versions

Installing previous versions of PyTorch

pytorch.org

 

아래 페이지 참고했고 torchvision==0.17.2 설치하니까 완성.

 

 

+ Recent posts