Sleep & Tech

지금 전 세계에서 가장 핫한 11개의 슬립 트래커 전격 비교!

|by 에이슬립

    [Editor’s Note]
    슬립 트래커는 처방전 없이도 누구나 쉽게 구매 가능하며 집에서 간단하고 편리하게 매일 밤 수면 단계(sleep stage)를 측정하여 나의 수면을 관찰할 수 있게 해주는 도구입니다. 침대에 누워 잠에 들기까지의 시간, 자는 동안 코골이, 뒤척임, 깸 등의 수면 방해는 없었는지, 수면 효율은 어떠했는지, 자는 동안 나의 몸에서 일어나는 여러 변화를 측정, 기록하여 쉽게 이해할 수 있도록 보여줍니다. 이를 통해 우리는 하루의 1/3을 차지하는 수면 시간을 살핌으로써 더욱 적극적으로 건강한 삶을 꾸려나갈 수 있습니다. 기술의 비약적인 발전으로 우리는 각자의 상황과 생활 방식에 따라 다양한 슬립 트래커를 선택할 수 있게 되었습니다. 하지만 동시에 정말로 나에게 도움이 되는 슬립 트래커가 무엇인지 판단하기는 어렵게 되었죠. 시중에 나와있는 수많은 슬립 트래커 중 나에게 꼭 맞는 슬립 트래커는 무엇일까요? 우리는 어떤 기준으로 슬립 트래커를 골라야 할까요? 지금 전 세계에서 가장 핫한 11개의 슬립 트래커를 정확한 가이드에 따라 동일한 환경에서 사용하고 비교해 보았습니다. 각 슬립 트래커의 장점과 단점은 무엇인지, 정말로 나의 수면 문제를 발견하고 개선하는 데에 도움을 얻으려면 어떤 슬립 트래커를 사용하면 좋은지 살펴보고자 합니다.

    최근 에이슬립은 스탠퍼드 의과대학 수면센터, 분당서울대병원 연구진과 함께 다양한 방식의 슬립 트래커 11개의 정확도를 비교한 연구 결과를 발표했습니다. 애플과 구글, 핏빗, 삼성, 아마존 등의 슬립 트래커를 동시에 동일한 사용 환경에서 비교한 연구는 이번이 처음입니다.

    객관성을 높인 슬립 트래커 비교 연구 환경

    슬립 트래커 간 단순 성능 비교는 이전에도 있었습니다. 기존 리뷰는 각 언론사의 에디터가 임의로 슬립 트래커를 하나씩 채택해 주관적으로 체험해 본 결과인 경우가 많습니다. 또한, 어떤 실험 조건 하에 진행되었는지 확인하기 어려운 경우가 많습니다. 슬립 트래커를 '제대로' 비교하려면 표준화된 방식으로 정교하게 세팅해 비교하는 것이 중요한데요. 이번 연구에서는 아래 두 가지 방법을 통해 슬립 트래커의 정확성을 판단하는 기준과 실험 조건에서의 객관성을 확보했습니다.

    의의1) 연구 참여 실험군에서의 다양성 확보

    기존 슬립 트래커 비교 연구에서는 적은 수의 모집자를 대상으로 단일 기관에서 실험이 진행되었다면, 이번 비교 연구에서는 두 기관에서 실험이 진행되었다는 데에 의의가 있습니다. 3차 병원인 분당서울대병원에서 37명, 일반 의원인 클리오닉 의원에서 38명 총 75명이 참여했습니다. 성비(남성 39명, 여성 36명)와 BMI(체질량지수)를 고려해 모집한 실험 참가자들*입니다.

    대학병원은 질환이 심각하고 나이가 많은 남성 환자들 비율이 높은 반면, 일반 의원은 여성 비율이 더 높고 환자들의 나이대도 다양한 편입니다. 성격이 다른 두 기관에서 다양한 참가자들을 모집했다는 사실은 연구의 객관성을 확보하는 데 있어 매우 의미 있는 시도였다고 할 수 있습니다.

    의의2) 골든 스탠더드 '수면다원검사(PSG)'와의 비교

    슬립 트래커 간의 정확성을 비교하기 위해서는 개별 슬립 트래커가 각각 얼마나 정확한지를 파악해야 합니다. 그리고 그 기준점은 수면 상태를 가장 다방면으로 정확히 분석 해주는 골든 스탠더드 검사인 수면다원검사(PSG)가 되어야 하는데요. 이를 위해 이번 연구에서는 75명의 참가자들이 슬립 트래커와 PSG 검사 장비를 동시에 착용한 상태에서 실험을 진행했습니다. 슬립 트래커로는 총 3980시간의 수면 세션 기록이, 수면다원검사로는 총 543시간의 기록이 활용되었습니다.

    최대한 다양한 종류의 상용 슬립 트래커를 활용

    이번 연구에서 사용한 슬립 트래커는 아래와 같습니다.

    비교 연구에 사용된 상용 슬립 트래커 11개 
    - 착용 가능한 웨어러블(Wearable) 기기 5개
    구글 픽셀 워치, 갤럭시 워치 5, 핏빗 센스 2, 애플 워치 8, 오라 링
    - 잠자는 곳 주변에 비치해두고 사용할 수 있는 니어러블(Nearable) 기기 3개
    위딩스 슬립트래킹 매트, 구글 네스트 허브 2, 아마존 헤일로 라이즈
    - 스마트폰 애플리케이션 형태로 이용할 수 있는 에어러블(Airable) 기기 3개
    슬립루틴, 슬립스코어, 필로우

    현재 상용화되고 있는 슬립 트래커는 생체 신호를 측정하는 방식이나 작동 원리가 저마다 다릅니다. 웨어러블(wearable), 니어러블(nearable), 에어러블(airable)은 사용자 측면에서 그 접근성과 편의성에 따라 크게 세 가지로 분류한 것입니다.

    더 자세한 내용은 '웨어러블 vs 니어러블 vs 에어러블'(해당 콘텐츠 링크 삽입) 참고

    웨어러블 슬립 트래커는 워치, 링, 이어폰 타입 등 신체에 직접 착용하여 수면 정보를 측정하는 형태입니다. LED 빛, 가속도 센서, 뇌파, 체온 등의 원리로 작동합니다. 자는 동안 디바이스를 몸에 착용하고 있어야 한다는 불편함이 있습니다.

    니어러블 슬립 트래커는 몸에 기기를 직접 착용할 필요 없이 잠자는 곳 주변(near)에 디바이스를 비치해두거나 매트를 깔고 자는 방식입니다. 레이더, 매트의 압력 등을 통해 호흡을 센싱하는 방식으로 작동합니다. 비접촉 방식이라는 장점이 있지만 기기를 두는 위치나 각도, 기기와의 거리 등에 따라 측정 결과에 차이가 생길 수도 있습니다.

    에어러블 슬립 트래커는 스마트폰만 있으면 소프트웨어 업데이트만으로도 언제 어디서든 사용할 수 있는 애플리케이션 형태의 슬립 트래커를 말합니다. 스마트폰에 내장된 마이크로 숨소리를 측정하거나 스마트폰의 가속도(자이로) 센서, 혹은 초음파 센서 등을 활용해 수면 상태를 측정합니다. 웨어러블, 니어러블 기기와 달리 수면 측정을 위한 별도의 디바이스를 따로 구입하지 않아도 됩니다.

    참가자들은 무작위로 두 그룹으로 나뉘어 수면다원검사를 받는 동안 11개의 슬립 트래커 중 8개를 동시에 착용했습니다. 이는 실험의 객관성을 높이기 위한 조건으로 특히 사용 중 서로 간섭을 일으킬 수 있는 슬립 트래커들은(위 그림에서 A와 B 그룹 간의 슬립 트래커) 동시에 착용하지 않았습니다. 동일한 생체 신호를 사용하는 기기 간의 간섭을 피하고, 워치 타입(웨어러블) 기기를 동시 착용할 때의 불편함을 최소화하기 위한 구분이었습니다. 또한 각 슬립 트래커 제조사에서 제안하는 이상적인 가이드를 준수하여 실험을 진행했습니다.

    수면 4단계에 대한 슬립 트래커별 정확도 비교 결과

    수면의 과정은 크게 수면 중 각성 혹은 깨어 있는 상태(Wake)부터 얕은 수면(Light)과 깊은 수면(Deep), 렘수면(REM) 이렇게 4단계로 나눌 수 있습니다. 슬립 트래커의 주요 기능 중 하나가 바로 단계별 수면 정보를 제공하는 일입니다. 수면의 질을 제대로 파악하기 위해선 이 수면 4단계를 정확히 모니터링할 수 있어야 하기 때문이죠. 

    연구 결과 각 수면 단계(Wake, Light, Deep, REM) 모두를 골고루 정확하게 모니터링하는 슬립 트래커는 에어러블 기기 중 하나였던 '슬립루틴'이 유일했습니다.

    이는 Macro F1 스코어를 통해 객관적인 수치로 증명됐습니다. 수면 4단계에 대한 슬립루틴의 F1 스코어가 0.6863으로 가장 높았습니다. 다음으로 아마존 헤일로 라이즈가 0.6242로 그 뒤를 이었고, 핏빗 센스 2가 0.5814로 3위를 기록했습니다.

    F1 스코어란?
       AI 모델의 결과 정확도를 측정하는 방법 중 하나. 전체 중 몇 개를 맞추었는지 뿐만 아니라 각 클래스의 균형값을 말합니다. sleep과 wake를 예로 들면, sleep을 정확하게 측정하는 것뿐만 아니라 wake 또한 얼마나 정확하게 측정해 내는지에 따라 F1 score는 달라집니다. wake 또는 deep 처럼 수면 중 자주 발생하지 않는 케이스를 정확하게 측정해낼 때 F1 스코어가 높아집니다.

    [표] 수면 4단계에 대한 슬립 트래커 성능 측정 결과

    수면의 각 단계를 슬립 트래커가 얼마나 정확하게 모니터링했는지 연구한 결과는 아래 표(Figure 2)를 보면 더욱 쉽게 파악할 수 있습니다. 각 표에서 Wake를 Wake 상태로, Light를 Light 단계로, Deep을 Deep 단계로, REM을 REM 단계로 맞춘 비율이 높은 슬립 트래커는 왼쪽 대각선 방향으로 색이 진하게 표시되어 있는 걸 볼 수 있습니다. 대표적인 예가 바로 슬립루틴(3.1 SleepRoutine)입니다. 아래 이미지 중 슬립루틴의 표에서처럼 대각선을 이루는 4개 칸이 골고루 진해야 수면의 각 단계를 모두 정확히 분석해냈다는 의미입니다.

    수면의 각 단계를 슬립 트래커가 얼마나 정확하게 모니터링했는지 연구한 결과는 아래 표(Figure 2)를 보면 더욱 쉽게 파악할 수 있습니다. 각 표에서 Wake를 Wake 상태로, Light를 Light 단계로, Deep을 Deep 단계로, REM을 REM 단계로 맞춘 비율이 높은 슬립 트래커는 왼쪽 대각선 방향으로 색이 진하게 표시되어 있는 걸 볼 수 있습니다. 대표적인 예가 바로 슬립루틴(3.1 SleepRoutine)입니다. 아래 이미지 중 슬립루틴의 표에서처럼 대각선을 이루는 4개 칸이 골고루 진해야 수면의 각 단계를 모두 정확히 분석해냈다는 의미입니다.

    그렇다면 다른 슬립 트래커는 어떨까요? 위의 표를 보면 몇 가지 슬립 트래커에서 대각선을 이루는 4개의 칸 중 특정 칸만 색이 진한 경우를 발견할 수 있는데요. 이는 수면의 4단계를 모두 고르게 잘 맞춘 것이 아닌, 특정 수면 단계만 잘 맞출 확률이 높았다는 의미입니다.

    특히 웨어러블 기기들은 신체에 기기가 접촉된 상태에서 측정이 이뤄지는 만큼 측정 신호의 안정도가 높은 편인데요. 그래서 심장 박동의 변화가 크지 않은 깊은 수면 단계나 그렇지 않은 얕은 수면 단계를 상대적으로 더 잘 맞추는 편입니다. 실제 연구 결과 구글 픽셀 워치, 핏빗 센스 2, 아우라 링처럼 손목이나 손가락에 착용하는 웨어러블 기기는 깊은 수면 단계(Deep)를 상대적으로 잘 맞추는 경향을 발견할 수 있었습니다.

    얕은 수면 단계(Light)도 마찬가지입니다. 구글 픽셀 워치와 핏빗 센스 2, 갤럭시 워치 5는 얕은 수면에 대한 모니터링 정확도가 높았습니다. 참고로 이 기기들은 모두 광혈류 측정 센서(PPG)를 통해 심박 변이도를 측정하여 수면 단계를 감지합니다. 워치와 링에서 나오는 초록색 LED 빛을 통해 혈관의 맥파를 측정하는 방식입니다.

    렘수면(REM) 모니터링 정확도는 웨어러블, 니어러블, 에어러블 세 종류의 슬립 트래커 모두 잘 잡아냈습니다. 흔히 꿈꾸는 수면으로 많이 알고 있는 렘수면 단계에선 몸의 움직임은 확 줄어들지만 뇌는 평소보다 훨씬 활성화됩니다. 호흡과 심장박동은 눈에 띄게 불규칙해지고요. 렘수면은 다른 수면 단계와 비교해 눈에 띄게 다른 점들이 많아 다양한 방식으로 모니터링하기 용이한 단계입니다. 그래서 이 단계는 거의 대부분의 슬립 트래커가 정확하게 측정하는 것을 발견할 수 있습니다.

    같은 내용은 아래 힙노그램으로도 확인해 보실 수 있습니다. 제일 상단의 수면다원검사(PSG) 힙노그램과 슬립 트래커별 힙노그램이 얼마나 유사한지 각 수면 단계별 일치도를 비교해 보면 그 정확도를 가늠해 볼 수 있는데요. 여기서도 슬립루틴의 힙노그램이 PSG 힙노그램과 가장 유사한 것을 확인할 수 있습니다.

    수면 중 각성 혹은 깸(Wake) 상태를 가장 잘 맞추는 슬립루틴

    수면 4단계와 더불어 11개의 슬립 트래커 가운데 ‘수면 중 각성 혹은 깸(Wake)’ 상태를 가장 잘 맞췄던 슬립 트래커는 에어러블 기기인 슬립루틴이었습니다. 연구 결과, 수면 4단계를 감지하는 정확도(Mac F1 Score)와 함께 Wake에 대한 슬립루틴의 정확도가 가장 높게 나왔습니다.

    슬립루틴의 Wake F1 Score는 0.7065로 1위였습니다. 아마존 헤일로 라이즈가 0.5967로 2위, 애플 워치 8이 0.5493으로 그 뒤를 이었습니다. 위의 힙노그램에서 각 그래프의 가장 위 칸의 노란 패턴의 그래프는 수면 중 각성 혹은 깸(Wake)을 나타내는데요. 골든 스탠더드인 PSG의 결과와 비교해봤을 때에 슬립루틴이 가장 유사한 패턴을 보이는 것을 발견할 수 있습니다.

    Wake 감지 기능은 슬립루틴이나 아마존 헤일로를 제외하고 실험에 사용된 슬립 트래커 대부분의 정확도가 20-30% 대로 골든 스탠더드인 PSG에 비해 현저히 낮았습니다. 슬립 트래커는 기본적으로 자신의 수면을 일상적으로 모니터링하여 매일 밤 나의 수면이 어떠한지 확인하기 위해 사용하는 도구입니다. 슬립 트래커가 제공하는 데이터와 리포트를 통해 수면 패턴이나 수면 효율에 객관적으로 문제는 없는지, 문제가 있다면 어떻게 해결할 수 있을지, 객관적 수면 효율과 주관적인 수면 만족도의 상관관계는 어떠한지를 살펴보며 필요한 경우 전문가의 적절한 도움을 받을 수도 있죠.

    그렇기 때문에 슬립 트래커를 통해 질 좋은 수면을 유지하거나 수면을 개선하는 실질적 효과를 얻기 위해서는 매일 간편하게 사용할 수 있을 만큼 편리해야 하는 것과 더불어 무엇보다 슬립 트래커가 제공하는 수면 데이터가 정확해야 합니다. 나의 수면 상태에 따라 필요한 개선 서비스(intervention)가 달라질 테니까요.

    특히, 수면 중 각성 혹은 깸이 분명 존재했던 구간에 wake가 없다고 기록되거나, 다른 수면 단계와 왔다 갔다 했던 구간을 쭉 wake로만 기록하는 것은 슬립 트래커의 신뢰도에 치명적입니다. 입면까지의 시간이 오래 걸려 오랫동안 침대에서 잠들지 못한 채 누워있기만 한 시간을 wake로 기록하지 못하는 슬립 트래커는 사용하기 어렵겠죠. wake 추적에 대한 정확도가 기본으로 전제가 된 상태에서 나머지 수면 단계를 골고루 정확하게 추적해 낼 수 있을 때, 사용자들은 슬립 트래커에 대해 더욱 신뢰할 수 있습니다.

    참고로 니어러블 기기인 아마존 헤일로 라이즈도 Wake를 잘 잡아내는 편입니다만, 이 슬립 트래커는 사용하기가 편하지는 않습니다. 자는 동안 왼쪽 가슴에서 30-50cm 가량 떨어진 곳에 기기를 두어야 정확한 측정이 가능하며 기기를 두는 방향과 높이에 따라 측정에 민감하게 반응합니다. 반면, 스마트폰 마이크를 통해 숨소리를 측정하는 슬립루틴은 기기(스마트폰)를 놔두는 위치나 방향에 민감하지 않습니다. 스마트폰 마이크 성능도 계속 좋아지고 있어 사용자의 숨소리를 감지할 수 있는 거리도 점차 더 확보될 것으로 보입니다.

    수면 중 각성 혹은 깸(Wake) 상태를 특히 잘 맞춰야 하는 이유

    우리가 '잘 잤다'라고 말할 수 있으려면 여러 조건들이 충족되어야 합니다. 단순하게는 1) 잠을 잔 총 시간부터 2) 침대에 누운 시간 대비 실제로 잔 시간(수면 효율), 그리고 잠을 잘 동안 3) 수면의 4단계를 골고루 거치면서 적정 수면 사이클을 유지했는지 등을 모두 만족시켜야 좋은 잠을 잤다고 할 수 있습니다.

    실제로 대부분의 슬립 트래커는 위의 3가지 조건에 대한 데이터를 모두 제공합니다. 그중 수면의 4단계 힙노그램은 이번 연구에 활용된 11개 슬립 트래커에서도 공통적으로 제공되는 정보였는데요. 다만 앞서 함께 살펴보았듯이 수면의 각 단계를 골고루 잘 맞추는 기기는 매우 드뭅니다.

    Wake를 제대로, 정확히 맞추는 슬립 트래커는 사용자의 수면 효율이 좋았는지 아닌지를 알려주는 불면증 치료의 첫걸음이 될 수 있습니다. 단순히 '잘 잔 것 같다' 혹은 '잘 못 잔 것 같다'라는 주관적인 느낌이 아닌, '객관적으로 잔 시간'을 알아야 병원에서도 제대로 된 인지행동치료를 안내받을 수 있고요.

    기상청은 '맑은 날'이 아니라 '비 오는 날'을 잘 맞추었을 때, 신뢰도가 높아집니다. 비에 대한 정확한 예보는, 우산을 챙기거나 행사 일정을 변경하는 등 일상적이지 않은 일상의 ‘대비’를 할 수 있도록 도와주기 때문입니다. 수면 역시 마찬가지이지 않을까요. '어떤 단계의 잠을 잤다'라는 정보에서 나아가 '자다가 언제, 얼마나 깼는지' 알게 되었을 때, 우리는 각자의 수면의 질을 높일 수 있는 방법을 찾아나갈 수 있을 것입니다.