what resources are required to train a GPT model with 10 billion parameters using 6 petabytes of data, assuming no hyperparameter tuning is performed? Specifically, how many GPUs would be needed and what types of GPUs would you recommend?
No has iniciado sesión. Iniciar sesión para publicar una respuesta.
Una buena respuesta responde claramente a la pregunta, proporciona comentarios constructivos y fomenta el crecimiento profesional en la persona que hace la pregunta.