¿£ºñµð¾Æ°¡ ¿£ºñµð¾Æ ÁöÆ÷½º(NVIDIA GeForce) RTX GPU¿Í Äí´Ù(CUDA) 12.8À» ÅëÇØ ·ÎÄà °Å´ë ¾ð¾î ¸ðµ¨(large language model, LLM) ½ÇÇà µµ±¸ÀÎ LM ½ºÆ©µð¿À(LM Studio)ÀÇ ¼º´ÉÀ» Çâ»óÇß´Ù°í ¹àÇû´Ù. À̹ø ¾÷µ¥ÀÌÆ®·Î ¸ðµ¨ ·Îµå¿Í ÀÀ´ä ½Ã°£ÀÌ Å©°Ô °³¼±µÆ´Ù.

¹®¼ ¿ä¾à¿¡¼ ¸ÂÃãÇü ¼ÒÇÁÆ®¿þ¾î ¿¡ÀÌÀüÆ®¿¡ À̸£±â±îÁö AI »ç¿ë »ç·Ê°¡ °è¼Ó È®ÀåµÇ°í ÀÖ´Ù. ÀÌ¿¡ µû¶ó °³¹ßÀÚ¿Í AI ¾ÖÈ£°¡µéÀº LLMÀ» ´õ ºü¸£°í À¯¿¬ÇÏ°Ô ½ÇÇàÇÒ ¼ö ÀÖ´Â ¹æ¹ýÀ» ã°í ÀÖ´Ù.
¿£ºñµð¾Æ ÁöÆ÷½º RTX GPU°¡ žÀçµÈ PC¿¡¼ ·ÎÄ÷Π¸ðµ¨À» ½ÇÇàÇÏ¸é °í¼º´É Ãß·Ð, Çâ»óµÈ µ¥ÀÌÅÍ ÇÁ¶óÀ̹ö½Ã, AI ¹èÆ÷¿Í ÅëÇÕ¿¡ ´ëÇÑ ¿ÏÀüÇÑ Á¦¾î°¡ °¡´ÉÇÏ´Ù. ¹«·á·Î üÇèÇÒ ¼ö ÀÖ´Â LM ½ºÆ©µð¿À¿Í °°Àº µµ±¸´Â ÀÌ·¯ÇÑ ·ÎÄà AI ½ÇÇàÀ» °£ÆíÇÏ°Ô ±¸ÇöÇÒ ¼ö ÀÖµµ·Ï Áö¿øÇÑ´Ù. À̸¦ ÅëÇØ »ç¿ëÀÚ´Â ÀÚ½ÅÀÇ Çϵå¿þ¾î¿¡¼ LLMÀ» Ž»öÇÏ°í ±¸ÃàÇÒ ¼ö ÀÖ´Ù.
LM ½ºÆ©µð¿À´Â ·ÎÄà LLM Ãß·ÐÀ» À§ÇØ °¡Àå ³Î¸® äÅÃµÈ µµ±¸ Áß Çϳª·Î ÀÚ¸® Àâ¾Ò´Ù. °í¼º´É llama.cpp ·±Å¸ÀÓÀ» ±â¹ÝÀ¸·Î ±¸ÃàµÈ ÀÌ ¾ÖÇø®ÄÉÀ̼ÇÀº ¸ðµ¨À» ¿ÏÀüÈ÷ ¿ÀÇÁ¶óÀο¡¼ ½ÇÇàÇÒ ¼ö ÀÖµµ·Ï ÇÑ´Ù. ¶ÇÇÑ »ç¿ëÀÚ ÁöÁ¤ ¿öÅ©Ç÷ο쿡 ÅëÇÕÇϱâ À§ÇØ ¿ÀÇÂAI(OpenAI) ȣȯ API(application programming interface) ¿£µåÆ÷ÀÎÆ® ¿ªÇÒµµ ¼öÇàÇÒ ¼ö ÀÖ´Ù.
LM ½ºÆ©µð¿À 0.3.15 ¹öÀüÀº Äí´Ù 12.8À» ÅëÇØ RTX GPU¿¡¼ ¼º´ÉÀÌ Çâ»óµÇ¸é¼ ¸ðµ¨ ·Îµå¿Í ÀÀ´ä ½Ã°£ÀÌ Å©°Ô °³¼±µÆ´Ù. ¶ÇÇÑ À̹ø ¾÷µ¥ÀÌÆ®¿¡´Â Åø_ÃÊÀ̽º(tool_choice) ÆÄ¶ó¹ÌÅ͸¦ ÅëÇÑ µµ±¸ Ȱ¿ë °³¼±, ½Ã½ºÅÛ ÇÁ·ÒÇÁÆ® ÆíÁý±â Àç¼³°è µî °³¹ßÀÚ Áß½ÉÀÇ »õ·Î¿î ±â´Éµµ Ãß°¡µÆ´Ù.
LM ½ºÆ©µð¿ÀÀÇ Ãֽа³¼± »çÇ×Àº ¼º´É°ú »ç¿ë¼ºÀ» Çâ»ó½ÃÄÑ RTX AI PC¿¡¼ ¿ª´ë ÃÖ°í ¼öÁØÀÇ Ã³¸®·®À» Á¦°øÇÑ´Ù. Áï, ´õ ºü¸¥ ÀÀ´ä, ´õ ½Å¼ÓÇÑ »óÈ£ÀÛ¿ë, ±×¸®°í ·ÎÄÿ¡¼ AI¸¦ ±¸ÃàÇϰí ÅëÇÕÇϱâ À§ÇÑ ´õ ³ªÀº ÅøÀ» Á¦°øÇÑ´Ù.
LM ½ºÆ©µð¿À´Â À¯¿¬¼ºÀ» ¿°µÎ¿¡ µÎ°í Á¦À۵а£´ÜÇÑ ½ÇÇèºÎÅÍ ¸ÂÃãÇü ¿öÅ©Ç÷οì ÅëÇÕ±îÁö ´Ù¾çÇÑ ¿ëµµ·Î Ȱ¿ëÇÒ ¼ö ÀÖ´Ù. »ç¿ëÀÚ´Â µ¥½ºÅ©Åé äÆÃ ÀÎÅÍÆäÀ̽º¸¦ ÅëÇØ ¸ðµ¨°ú »óÈ£ÀÛ¿ëÇϰųª °³¹ßÀÚ ¸ðµå¸¦ Ȱ¼ºÈÇØ ¿ÀÇÂAI ȣȯ API ¿£µåÆ÷ÀÎÆ®¸¦ Á¦°øÇÒ ¼ö ÀÖ´Ù. À̸¦ ÅëÇØ ·ÎÄà LLMÀ» ºñÁÖ¾ó ½ºÆ©µð¿À ÄÚµå(VS Code)³ª ¸ÂÃãÇü µ¥½ºÅ©Åé ¿¡ÀÌÀüÆ®¿Í °°Àº ¾ÛÀÇ ¿öÅ©Ç÷ο쿡 ½±°Ô ¿¬°áÇÒ ¼ö ÀÖ´Ù.
¿¹¸¦ µé¾î, LM ½ºÆ©µð¿À´Â ¸¶Å©´Ù¿î ±â¹ÝÀÇ Àαâ Áö½Ä °ü¸® ¾ÖÇø®ÄÉÀ̼ÇÀÎ ¿É½Ãµð¾ð(Obsidian)¿¡ ÅëÇÕµÉ ¼ö ÀÖ´Ù. »ç¿ëÀÚ´Â ÅØ½ºÆ® Á¦³Ê·¹ÀÌÅÍ(Text Generator), ½º¸¶Æ® Ä¿³Ø¼Ç(Smart Connections)°ú °°Àº Ä¿¹Â´ÏƼ °³¹ß Ç÷¯±×ÀÎÀ» »ç¿ëÇØ ÄÜÅÙÃ÷¸¦ »ý¼ºÇϰí, ¿¬±¸¸¦ ¿ä¾àÇϰí, ÀÚ½ÅÀÇ ³ëÆ® °Ë»öÀ» ¼öÇàÇÒ ¼ö ÀÖ´Ù. ÀÌ ¸ðµç ±â´ÉÀº LM ½ºÆ©µð¿À¸¦ ÅëÇØ ½ÇÇàµÇ´Â ·ÎÄà LLMÀ¸·Î ±¸µ¿µÈ´Ù. ÀÌ·¯ÇÑ Ç÷¯±×ÀÎÀº LM ½ºÆ©µð¿ÀÀÇ ·ÎÄà ¼¹ö¿¡ Á÷Á¢ ¿¬°áµÇ¹Ç·Î Ŭ¶ó¿ìµå¿¡ ÀÇÁ¸ÇÏÁö ¾Ê°íµµ ºü¸£°í ºñ°ø°³ÀûÀÎ AI »óÈ£ÀÛ¿ëÀÌ °¡´ÉÇÏ´Ù.
LM ½ºÆ©µð¿À 0.3.15 ¾÷µ¥ÀÌÆ®¿¡´Â °³¹ßÀÚ¸¦ À§ÇÑ »õ·Î¿î ±â´ÉÀÌ Ãß°¡µÆ´Ù. ±×Áß¿¡´Â Åø_ÃÊÀ̽º ¸Å°³º¯¼ö¸¦ ÅëÇÑ µµ±¸ »ç¿ë¿¡ ´ëÇÑ ¼¼ºÐÈµÈ Á¦¾î ±â´É°ú ´õ ±æ°Å³ª º¹ÀâÇÑ ÇÁ·ÒÇÁÆ®¸¦ ó¸®ÇÒ ¼ö ÀÖ´Â ½Ã½ºÅÛ ÇÁ·ÒÇÁÆ® ÆíÁý±â ¾÷±×·¹ÀÌµå µîÀÌ Æ÷ÇԵȴÙ.
°³¹ßÀÚ´Â Åø_ÃÊÀ̽º ÆÄ¶ó¹ÌÅ͸¦ ÅëÇØ µµ±¸ È£ÃâÀ» °Á¦Çϰųª, ¿ÏÀüÈ÷ ºñȰ¼ºÈÇϰųª, ¸ðµ¨ÀÌ µ¿ÀûÀ¸·Î °áÁ¤Çϵµ·Ï Çã¿ëÇÏ´Â µî ¸ðµ¨ÀÌ ¿ÜºÎ µµ±¸¿Í ¿¬µ¿ÇÏ´Â ¹æ½ÄÀ» Á¦¾îÇÒ ¼ö ÀÖ´Ù. ÀÌ·¯ÇÑ À¯¿¬¼ºÀº ±¸Á¶ÈµÈ »óÈ£ÀÛ¿ë, °Ë»ö Áõ° »ý¼º(retrieval-augmented generation, RAG) ¿öÅ©ÇÃ·Î¿ì ¶Ç´Â ¿¡ÀÌÀüÆ® ÆÄÀÌÇÁ¶óÀÎ ±¸Ãà¿¡ ƯÈ÷ À¯¿ëÇÏ´Ù. ÀÌ·¯ÇÑ ¾÷µ¥ÀÌÆ®´Â LLMÀ» »ç¿ëÇÏ´Â °³¹ßÀÚÀÇ ½ÇÇè°ú ÇÁ·Î´ö¼Ç »ç¿ë »ç·Ê ¸ðµÎ¿¡¼ È¿À²¼ºÀ» ³ôÀδÙ.
LM ½ºÆ©µð¿À´Â Áª¸¶(Gemma), ¶ó¸¶3(Llama 3), ¹Ì½ºÆ®¶ö(Mistral), ¿À¸£Ä«(Orca) µî ±¤¹üÀ§ÇÑ °³¹æÇü ¸ðµ¨°ú 4ºñÆ®ºÎÅÍ °íÁ¤¹Ð±îÁö ´Ù¾çÇÑ ¾çÀÚÈ Çü½ÄÀ» Áö¿øÇÑ´Ù.
ÁÖ¿ä »ç¿ë »ç·Ê·Î´Â RAG, ±ä ÄÁÅØ½ºÆ® À©µµ¿ì°¡ ÀÖ´Â ¸ÖƼÅÏ(multi-turn) äÆÃ, ¹®¼ ±â¹Ý ÁúÀÇÀÀ´ä, ·ÎÄà ¿¡ÀÌÀüÆ® ÆÄÀÌÇÁ¶óÀÎ µîÀÌ ÀÖ´Ù. ¶ÇÇÑ ¿£ºñµð¾Æ RTX·Î °¡¼ÓµÈ llama.cpp ¼ÒÇÁÆ®¿þ¾î ¶óÀ̺귯¸®·Î ±¸µ¿µÇ´Â ·ÎÄà Ãß·Ð ¼¹ö¸¦ ÅëÇØ RTX AI PC¿¡¼ ·ÎÄà LLMÀ» ½±°Ô ÅëÇÕÇÒ ¼ö ÀÖ´Ù.
¼ÒÇü RTX ±â¹Ý ½Ã½ºÅÛ¿¡¼ È¿À²¼ºÀ» ÃÖÀûÈÇϵç, °í¼º´É µ¥½ºÅ©Åé¿¡¼ ³ôÀº 󸮷®À» ´Þ¼ºÇϵç, LM ½ºÆ©µð¿À´Â RTX¿¡¼ ¿ÏÀüÇÑ Á¦¾î, ¼Óµµ, ÇÁ¶óÀ̹ö½Ã¸¦ ¸ðµÎ Á¦°øÇÑ´Ù.
LM ½ºÆ©µð¿À °¡¼ÓÈÀÇ ÇÙ½ÉÀº ¼ÒºñÀÚ Çϵå¿þ¾î¿¡¼ È¿À²ÀûÀÎ Ãß·ÐÀ» Á¦°øÇϵµ·Ï ¼³°èµÈ ¿ÀÇ ¼Ò½º ·±Å¸ÀÓÀÎ llama.cppÀÌ´Ù. ¿£ºñµð¾Æ´Â LM ½ºÆ©µð¿À, llama.cpp Ä¿¹Â´ÏƼ¿Í Çù·ÂÇØ RTX GPU ¼º´ÉÀ» ±Ø´ëÈÇϱâ À§ÇØ ¸î °¡Áö ÃÖÀûÈ »çÇ×À» ÅëÇÕÇß´Ù.
ÁÖ¿ä ÃÖÀûÈ »çÇ×Àº ´ÙÀ½°ú °°´Ù.
- Äí´Ù ±×·¡ÇÁ Ȱ¼ºÈ: ¿©·¯ GPU ÀÛ¾÷À» ´ÜÀÏ CPU È£Ãâ·Î ±×·ìÈÇØ CPU ¿À¹öÇìµå¸¦ ÁÙÀÌ°í ¸ðµ¨ Ã³¸®·®À» ÃÖ´ë 35%±îÁö °³¼±ÇÑ´Ù.
- Ç÷¡½Ã ¾îÅÙ¼Ç Äí´Ù Ä¿³Î(Flash attention CUDA kernel): Æ®·£½ºÆ÷¸Ó ¸ðµ¨¿¡¼ Áß¿äÇÑ ÀÛ¾÷ÀÎ LLMÀÇ ¾îÅÙ¼Ç Ã³¸® ¹æ½ÄÀ» °³¼±ÇØ Ã³¸®·®À» ÃÖ´ë 15%±îÁö Çâ»ó½ÃŲ´Ù. ÀÌ ÃÖÀûȸ¦ ÅëÇØ ¸Þ¸ð¸® ¶Ç´Â ¿¬»ê ¿ä±¸ »çÇ×À» ´Ã¸®Áö ¾Ê°íµµ ´õ ±ä ÄÁÅØ½ºÆ® À©µµ¿ì¸¦ »ç¿ëÇÒ ¼ö ÀÖ´Ù.
- ÃֽŠRTX ¾ÆÅ°ÅØÃ³ Áö¿ø: Äí´Ù 12.8·Î ¾÷µ¥ÀÌÆ®µÈ LM ½ºÆ©µð¿À´Â ÁöÆ÷½º RTX 20 ½Ã¸®ÁîºÎÅÍ ¿£ºñµð¾Æ ºí·¢À£(Blackwell)±Þ GPU±îÁö ¸ðµç ¹üÀ§ÀÇ RTX AI PC¿ÍÀÇ È£È¯¼ºÀ» º¸ÀåÇÑ´Ù. ÀÌ´Â »ç¿ëÀÚ°¡ ³ëÆ®ºÏ¿¡¼ ÇÏÀÌ¿£µå µ¥½ºÅ©Åé±îÁö ·ÎÄà AI ¿öÅ©Ç÷ο츦 À¯¿¬ÇÏ°Ô È®ÀåÇÒ ¼ö ÀÖµµ·Ï Áö¿øÇÑ´Ù.
µö½ÃÅ©-R1-Áõ·ù-¶ó¸¶-8B(DeepSeek-R1-Distill-Llama-8B) ¸ðµ¨¿¡¼ ÁöÆ÷½º RTX 5080 ´Ù¾çÇÑ ¹öÀüÀÇ LM ½ºÆ©µð¿À¿Í Äí´Ù ¹é¿£µå¸¦ »ç¿ëÇØ ÃøÁ¤ÇÑ µ¥ÀÌÅÍ.
¸ðµç ±¸¼ºÀº BS=1, ISL=4000, OSL=200¿¡¼ Q4_K_M GGUF(Int4) ¾çÀÚȸ¦ »ç¿ëÇØ Ç÷¡½Ã ¾îÅÙ¼ÇÀ» ÄѰí ÃøÁ¤Çß´Ù. ±×·¡ÇÁ´Â llama.cpp Ãß·Ð ¹é¿£µå¿¡ ´ëÇÑ ¿£ºñµð¾ÆÀÇ ±â¿©·Î ÀÎÇØ ÃֽйöÀüÀÇ LM ½ºÆ©µð¿À¿¡¼ ÃÖ´ë 27%ÀÇ ¼Óµµ Çâ»óÀ» º¸¿©ÁØ´Ù.
ȣȯµÇ´Â µå¶óÀ̹ö¸¦ »ç¿ëÇϸé LM ½ºÆ©µð¿À°¡ Äí´Ù 12.8 ·±Å¸ÀÓÀ¸·Î ÀÚµ¿ ¾÷±×·¹À̵åµÇ¹Ç·Î ¸ðµ¨ ·Îµå ½Ã°£ÀÌ ÈξÀ »¡¶óÁö°í Àü¹ÝÀûÀÎ ¼º´ÉÀÌ Çâ»óµÈ´Ù.
ÀÌ·¯ÇÑ Çâ»óµÈ ±â´ÉÀº ¾ã°í °¡º¿î ³ëÆ®ºÏºÎÅÍ °í¼º´É µ¥½ºÅ©Åé, ¿öÅ©½ºÅ×À̼ǿ¡ À̸£±â±îÁö ¸ðµç ¹üÀ§ÀÇ RTX AI PC¿¡¼ ´õ ¿øÈ°ÇÑ Ã߷аú ºü¸¥ ÀÀ´ä ½Ã°£À» Á¦°øÇÑ´Ù.
LM ½ºÆ©µð¿À´Â À©µµ¿ì, ¸ÆOS(macOS), ¸®´ª½º¿¡¼ ¹«·á·Î ´Ù¿î·ÎµåÇØ ½ÇÇàÇÒ ¼ö ÀÖ´Ù. ÃֽŠ0.3.15 ¹öÀü°ú Áö¼ÓÀûÀÎ ÃÖÀûȸ¦ ÅëÇØ »ç¿ëÀÚ´Â ¼º´É, ¸ÂÃãÈ, »ç¿ë¼º¿¡¼ Áö¼ÓÀûÀÎ °³¼±À» ±â´ëÇÒ ¼ö ÀÖÀ¸¸ç, ·ÎÄà AI¸¦ ´õ ºü¸£°í À¯¿¬Çϸç Á¢±Ù °¡´ÉÇÏ°Ô ¸¸µç´Ù.
»ç¿ëÀÚ´Â µ¥½ºÅ©Åé äÆÃ ÀÎÅÍÆäÀ̽º¸¦ ÅëÇØ ¸ðµ¨À» ·ÎµåÇϰųª °³¹ßÀÚ ¸ðµå¸¦ Ȱ¼ºÈÇØ ¿ÀÇÂAI ȣȯ API¸¦ »ç¿ëÇÒ ¼ö ÀÖ´Ù.