안녕하세요
BrianaAI입니다.
YOLO 환경 셋팅하는데 내부 requirements.txt 로 설치했는데, 코드 실행이 안되더라구요.
여러 에러를 찾아봤는데 원인은 다양하게 있었어요.
처음에는 메모리 문제인지 알았으나, 아니였던 것 같습니다.
결과 미리보기
pre-conclusion: You need to change torch and torchvision version when you use H100 server with CUDA 11.8 over
torch : 2.0.1+cu118
torchvision: 0.17.2
1) CUDA 맞게 활성화 되고 있는지 확인.
import torch
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
t = torch.tensor([1,2], device=device)
위 문장을 수행했더니 커맨드창에 warning으로
PC에 설치된 pytorch 버전과 sm_90이 호환이 안된다고 하네요.
H100 서버에서 CUDA와 pytorch 버전이 충돌난 것 같습니다.
https://pytorch.org/get-started/locally/
Start Locally
Start Locally
pytorch.org
커맨드창에 여기서 확인(위 링크)하라고해서
운영체제에 맞게 셋팅값을 설정 후 command를 실행해주니, 우선 성공적으로 설치는 진행됐습니다.
근데 이것만 설치해주면 되는게 아니고 거기에 맞는 torchvision도 설치해주어야합니다.
2.0.1+cu118 에 맞는 torchvision 확인하기 위해서
https://pytorch.org/get-started/previous-versions/
Previous PyTorch Versions
Installing previous versions of PyTorch
pytorch.org
아래 페이지 참고했고 torchvision==0.17.2 설치하니까 완성.