로봇 산업 이해 2부: 로봇은 어떻게 세상을 인식할까? 비전 AI와 센서의 역할

산업 인사이트

로봇 산업 이해 2부: 로봇은 어떻게 세상을 인식할까? 비전 AI와 센서의 역할

Architect K 2026. 6. 3. 18:30

지난 1부에서는 챗GPT와 같은 거대 인공지능이 모니터를 벗어나 현실 세계의 '육체'를 얻게 된 거시적 배경을 살펴보았습니다. 하지만 아무리 천재적인 두뇌와 강철 같은 체력을 가진 로봇이라 할지라도, 눈을 안대로 가리고 귀를 막은 상태라면 테이블 위의 커피잔 하나 제대로 집어 들 수 없습니다.

예측 불가능한 돌발 변수가 넘쳐나는 일상 공간에서 로봇이 안전하고 정확하게 임무를 수행하려면, 세상을 입체적으로 받아들이는 고도의 '감각 기관'이 필수적입니다. 오늘 2부에서는 로봇 산업의 핵심 밸류체인 중 하나인 비전 AI(Vision AI)와 로봇의 눈, 피부 역할을 하는 첨단 센서 기술에 대해 알아보겠습니다.

눈을 뜬 로봇: 왜 '시각(Vision)'이 가장 중요한가?

인간이 외부 환경을 인식할 때 시각에 크게 의존하듯, 피지컬 AI에게도 가장 중요한 감각은 단연 시각입니다.

과거 공장의 로봇들은 주변 환경을 이해하기보다 정해진 경로를 반복 수행하는 자동화 기계에 가까웠습니다. 하지만 최근의 로봇들은 카메라 렌즈를 통해 들어온 픽셀(Pixel) 덩어리를 단순한 이미지가 아닌 '의미 있는 정보'로 해석해 냅니다. 이를 가능하게 한 것이 바로 VLM(비전 언어 모델, Vision Language Model:이미지와 언어를 동시에 이해)의 발전입니다.

로봇에 VLM이 탑재되면, 카메라는 "갈색 원기둥 형태의 물체"를 보는 것을 넘어 "저것은 뜨거운 커피가 담긴 종이컵이며, 노트북 바로 옆에 위태롭게 놓여 있다"는 공간적 맥락(Context)까지 이해하게 됩니다. 즉, 사물을 단순히 '보는(Seeing)' 수준에서 세상을 '이해하는(Understanding)' 단계로 진화한 것이며, 이것이 휴머노이드 로봇이 인간과 상호작용할 수 있게 된 가장 핵심적인 기술적 기반입니다.

세상을 3D로 그리는 기술: 카메라 vs 라이다(LiDAR)

로봇이 3차원의 현실 세계를 입체적으로 파악하기 위해 현재 산업계는 크게 두 가지 방식의 '눈'을 두고 치열한 기술 경쟁을 벌이고 있습니다. 이는 자율주행 자동차 업계의 패권 다툼과도 정확히 일치합니다.

1. 라이다(LiDAR) 진영: "오차 없는 완벽한 3D 지도를 원한다면" 라이다는 레이저 빛을 사방으로 쏜 뒤, 그 빛이 물체에 부딪혀 돌아오는 시간을 계산해 주변의 지형지물을 밀리미터(mm) 단위의 3D 지도로 그려내는 장비입니다.

장점: 야간이나 역광 등 빛의 영향을 거의 받지 않으며, 거리 측정의 정확도가 압도적으로 높습니다.
단점: 부품의 가격이 비싸고 크기가 커서 로봇의 단가를 높이는 주범이 됩니다. 또한 유리나 거울처럼 빛을 반사/투과하는 물체 앞에서는 오류를 일으킬 확률이 존재합니다.

2. 순수 비전(Vision-only) 진영: "인간도 두 눈만으로 세상을 걷는다" 테슬라(Tesla)의 '옵티머스'가 대표하는 이 진영은 값비싼 라이다 없이 여러 대의 카메라(시각)만으로 세상을 3D로 인식하겠다는 철학을 가지고 있습니다.

장점: 카메라 렌즈는 라이다 대비 가격이 압도적으로 저렴하여 로봇의 '대량 양산'에 매우 유리합니다.
단점: 평면(2D) 이미지를 보고 공간의 깊이(3D)를 추론해 내야 하므로, 이를 계산할 압도적인 AI 연산 능력과 어마어마한 양의 학습 데이터가 필요합니다.

현재는 두 기술을 적절히 섞어 쓰는 방식이 주류를 이루고 있지만, 궁극적으로 AI 소프트웨어가 고도화될수록 부품 단가가 저렴한 '카메라 중심'으로 무게추가 기울 것이라는 분석이 시장의 설득력을 얻고 있습니다.

카메라 vs 라이다(LiDAR) 인식 비교 이미지(AI 활용 생성 이미지)

계란을 깨뜨리지 않고 쥐는 법: '촉각 센서'의 진화

로봇의 눈이 사물의 '위치'를 찾아준다면, 로봇의 손이 사물을 다룰 때 결정적인 역할을 하는 것은 '촉각(Tactile)'입니다.

카메라만으로는 눈앞의 빈 종이컵이 얼마나 가벼운지, 혹은 강철로 된 컵이라 얼마나 무거운지 알 수 없습니다. 만약 촉각이 없는 로봇에게 날계란을 집어 들라고 명령한다면, 로봇은 계란의 껍질이 산산조각 날 때까지 모터의 힘을 가할 것입니다.

이를 방지하기 위해 로봇의 손목과 손가락 끝에는 '포스 토크 센서(힘/토크 센서)'라는 정밀 부품이 장착됩니다. 이 센서는 물체가 손에 닿았을 때 발생하는 미세한 압력과 저항력을 실시간으로 측정하여, 로봇의 뇌에 "힘을 그만 주고 살짝만 쥐어라"라는 신호를 보냅니다. 최근에는 인간의 지문처럼 미세한 마찰력과 온도까지 감지해 내는 전자 피부(e-skin) 기술까지 연구되며, 부드러운 과일을 따거나 종이를 넘기는 등 인간 고유의 영역이었던 초정밀 작업의 한계를 넘어서고 있습니다.

감각의 융합(Sensor Fusion)과 남겨진 과제

로봇은 시각(카메라/라이다), 공간 감각(관성 센서), 촉각(포스 토크 센서) 등 수십 개의 감각 기관에서 쏟아지는 방대한 데이터를 1초에도 수백 번씩 동시에 처리해야 합니다. 이를 '센서 퓨전(Sensor Fusion)'이라고 부릅니다.

문제는 이 수많은 데이터를 지연 시간 없이 실시간으로 계산해 내기 위해서는, 로봇의 몸체 안에 들어갈 컴퓨터(AI 반도체)가 엄청난 전력과 연산 능력을 감당해야 한다는 점입니다. 앞서 우리가 [AI 산업이해]에서 다루었던 고성능 반도체와 전력 효율 문제가 로봇 산업에서도 똑같이 반복되는 거대한 병목 현상(Bottleneck)인 셈입니다.

로봇이 VLM(눈)으로 사물을 인식하고, 촉각 센서(피부)로 힘을 조절할 준비를 마쳤습니다. 그렇다면 이제 뇌의 명령을 받아 '실제로 무거운 쇳덩어리 팔다리를 부드럽게 움직이는 물리적 장치'가 필요합니다. 다음 [3부: 근육과 관절] 편에서는 로봇 하드웨어 원가에서 가장 큰 비중을 차지하며, 진입 장벽이 압도적으로 높은 핵심 부품인 '감속기'와 '서보모터'의 원리와 시장 생태계를 분석해 보겠습니다.

※ 본 글은 개인적인 분석과 인사이트를 정리한 내용으로, 투자 권유를 목적으로 하지 않습니다. 특정 산업이나 종목에 대한 매수·매도 추천이 아니며, 모든 투자 판단과 책임은 투자자 본인에게 있습니다.

'산업 인사이트' 카테고리의 다른 글

로봇 산업 이해 3부: 구동 부품의 세계, 로봇의 근육과 관절 (0)	2026.06.05
로봇 산업 이해 1편: 왜 지금 로봇인가? 피지컬 AI가 주목받는 이유 (0)	2026.06.01
AI 산업 이해 9부(완결): 승자독식 구조와 3대 리스크 (0)	2026.04.05
AI 산업 이해 8부: 인프라 구축 그 이후, 진짜 수익은 어디서 날까? (0)	2026.04.04
AI 산업 이해 7부: 열과의 전쟁, AI 인프라의 한계를 깨는 '액침냉각' (2)	2026.04.03

현재글로봇 산업 이해 2부: 로봇은 어떻게 세상을 인식할까? 비전 AI와 센서의 역할

Architect K | AI·경제 인사이트

Architect K의 블로그 입니다.

AI메모리, AI산업이해, 광통신, HBM, 비전AI, 액추에이터, 피지컬ai, AI산업구조, 데이터센터, 로봇산업, 온디바이스AI, npu, AI산업, AI밸류체인, 로봇밸류체인, AI반도체, 터보퀀트, Capex, AI인프라, 휴머노이드,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

Architect K | AI·경제 인사이트