'각 thread가 자기 좌표를 buffer에 쓰는' 패턴
Metal은 GPU printf가 없어. 대신 관습은: 각 thread가 자기 정체성을 device buffer에 쓰고, command buffer 끝나면 CPU가 buffer 읽어서 print. 장황한데 이게 어차피 모든 실전 워크로드에서 해야 할 round-trip을 강제하는 거야.
파일 둘: hello.metal (커널)이랑 hello_host.swift (launch driver + 결과 printer). metal + metallib + swiftc로 빌드, single binary로 실행.