AI 상식 단어 15선 : 머신러닝, 자연어, AGI 등 실무에서 바로 쓰는 용어
본문
인공지능(AI)은 더 이상 연구실 속 기술이 아니다.
검색, 번역, 업무 자동화, 콘텐츠 제작까지 이미 우리의 일상과 산업 현장 깊숙이 들어왔다. 하지만 기술이 빠르게 퍼지는 만큼, AI를 둘러싼 용어들은 여전히 낯설게 다가온다. '프롬프트', '토큰', 'RAG', '환각' 같은 단어는 이제 회의실과 기사, 블로그에서 매일 등장하지만, 막상 설명해보라 하면 막연하기 쉽다. 이 글은 복잡한 이론을 내려놓고, 실무와 생활 속에서 자주 쓰이는 15개의 핵심 단어를 짚어 AI의 언어를 이해하는 길잡이가 되고자 한다.
1) 프롬프트 (Prompt)
AI에게 건네는 질문이자 지시로, 결과의 품질과 방향을 사실상 결정한다. 좋은 프롬프트는 목적, 대상, 분량, 톤, 형식, 제외 조건을 분명히 담는다. 예컨대 '신입 마케터가 이해할 수 있게, 5줄 이내, 표기는 한글 전용, 근거 2개 요약'처럼 맥락을 정교하게 적으면 동일 모델도 훨씬 일관된 답을 낸다. 반대로 모호한 요구는 환각을 부르고 수정 공수를 키운다. 프롬프트는 '질문 능력'이 곧 '활용 능력'이라는 사실을 보여준다.
2) 토큰 (Token)
모델이 텍스트를 처리하는 최소 단위로, 글자·음절·단어·문장부호가 상황에 따라 토큰이 된다. 우리가 입력하는 분량·비용·속도·정확도는 토큰 수와 직결되며, 같은 문장이라도 언어·표기 방식에 따라 토큰 수가 크게 달라진다. 한국어는 조사가 붙고 합성어가 많아 토큰이 더 잘게 쪼개질 수 있으니 요약·불필요한 반복 제거가 비용 절감에 효과적이다. 실무에서는 '이 답변이 왜 끊겼지'라는 문제의 상당수가 토큰 한도 초과로 설명된다.
3) 토크나이저 (Tokenizer)
문장을 토큰으로 쪼개는 알고리즘·도구로, 모델이 읽을 수 있는 형태로 텍스트를 전처리한다. 토크나이저의 설계에 따라 같은 문장도 토큰화 결과가 달라지고, 이는 비용과 의미 보존에 영향을 준다. 특히 한글 고유명사·숫자·약어·이모지 처리 품질이 검색·요약의 정확도를 좌우한다. 회사 내부 지침서·상품명처럼 특수 표기가 많은 데이터는 업스트림에서 표준화해 토크나이저 오인을 줄이는 편이 안전하다.
4) 컨텍스트 윈도우 (Context Window)
모델이 한 번에 기억·참조할 수 있는 토큰의 최대치다. 윈도우가 넓을수록 긴 보고서·다중 문서를 맥락 유지하며 처리하지만, 무작정 크게만 한다고 좋은 것은 아니다. 핵심이 흐려지고 중요한 문장이 희석될 수 있어, '필요한 내용만 추려 넣기'가 성능과 비용을 동시에 잡는 요령이다. 실무에서는 '전달 본문', '지시 요약', '금지·제외 규칙'을 분리해 넣고, 긴 부록은 RAG로 외부 참조시키는 방식이 안정적이다.
5) 머신러닝 (Machine Learning)
데이터에서 패턴을 학습해 스스로 규칙을 찾아내는 기술 묶음이다. 지도학습·비지도학습·강화학습 등 학습 방식이 다르고, 업무에서는 스팸 분류·수요 예측·이탈 예측처럼 정량적 분류·회귀 문제에서 먼저 성과를 낸다. 중요 포인트는 '좋은 피처'와 '정확한 라벨'이며, 양보다 질이 성능을 가른다. 모델 종류보다 데이터 관리 체계가 성패를 좌우한다는 교훈을 잊기 쉽다.
6) 딥러닝 (Deep Learning)
여러 층의 인공신경망으로 매우 복잡한 패턴을 학습하는 머신러닝의 한 갈래다. 이미지·음성·자연어 등 비정형 데이터에서 탁월하며, 번역·자율주행·음성 비서·생성형 모델의 기반이 된다. 다만 데이터 편향과 과적합, 설명가능성 한계가 공존하므로 평가 지표를 다면적으로 설계해야 한다. '정확도 하나'로 운영 판단을 내리면 배치 환경에서 위험 신호를 놓친다.
7) 자연어처리 (NLP, Natural Language Processing)
사람의 언어를 기계가 이해·생성·요약·분류·번역하도록 하는 기술 영역이다. 고객문의 자동 분류, 민원 요약, 회의록 생성, 문서 비교 같은 반복 업무를 대체·보조하며, 대화형 인터페이스의 품질을 좌우한다. 주의점은 도메인 용어·줄임말·은어·오타 처리이며, 사내 말뭉치로 어휘 분포를 보정하면 정확도가 크게 오른다. NLP 도입의 키는 '표준 용어 사전'과 '금칙어 사전'의 관리다.
8) RAG (Retrieval-Augmented Generation)
모델이 답을 지을 때 외부 문서를 먼저 검색·선정해 참고하도록 만드는 구조다. 최신성·정확성·출처 제시가 가능해 환각을 크게 줄이고, 보안 영역에서는 폐쇄망 지식베이스만 참조하도록 제한할 수 있다. 핵심은 임베딩 품질과 검색 랭킹·권한 필터이며, 문단 단위로 잘게 나눠 색인을 만들면 재사용성이 높다. 현실 세계의 정책·가격·재고처럼 바뀌는 정보를 다룰 때 RAG는 사실상 필수다.
9) AGI (Artificial General Intelligence)
특정 과제에 한정되지 않고 새로운 문제를 스스로 학습·응용할 수 있는 범용 지능을 뜻한다. 오늘날 상용 모델은 여전히 '협의의 도구'에 가깝지만, 복합 작업 체이닝·도구 사용·장기 메모리 등이 진화하며 AGI에 가까운 행동을 보이는 영역이 늘고 있다. 다만 기준과 검증 방법이 합의되지 않아 'AGI에 도달했다'는 선언은 논쟁적이다. 정책·윤리·책임의 틀을 마련하는 논의가 기술 못지않게 중요하다.
10) 특이점 (Singularity)
AI의 발전 속도가 인간의 이해·통제를 넘어서는 가상의 전환점이다. 기술적으로는 'AI가 더 뛰어난 AI를 자율적으로 설계·개선하는 순환'을 가정하며, 사회적으로는 고용·분배·안보의 급격한 재편을 예고한다. 아직 도래 여부는 불확실하지만, 규제·안전·분배 시스템을 선제 설계해야 한다는 문제의식은 현실적이다. 특이점은 공포가 아니라 준비의 언어여야 한다.
11) 파라미터 (Parameter)
모델 내부에 학습된 수치 값으로, 언어·지식·패턴이 저장되는 자리다. 파라미터 수가 늘면 표현력 잠재력은 커지지만, 데이터 품질·튜닝·프롬프트 설계가 받쳐주지 않으면 체감 성능은 기대에 못 미친다. '큰 모델'과 '좋은 모델'은 다르며, 비용 대비 효율을 따지는 운영 관점이 필수다. 현장에서는 큰 모델+경량 모델 혼용 전략이 흔하다.
12) 임베딩 (Embedding)
단어·문장·이미지를 고정 길이 숫자 벡터로 표현해 의미가 비슷한 것끼리 가깝게 두는 기법이다. 추천·유사 문서 찾기·중복 글 탐지·군집 분석의 핵심이며, 벡터DB와 결합해 대규모 검색을 빠르게 수행한다. 실무에서는 '동의어 사전'을 억지로 만들기보다 임베딩 유사도로 문제를 푸는 편이 확장성이 좋다. 단, 개인정보가 포함된 텍스트는 벡터화 이전에 반드시 마스킹해야 한다.
13) 파인튜닝 (Fine-tuning)
사전학습 모델을 특정 업무 데이터로 추가 학습해 톤·용어·정책을 맞추는 과정이다. 고객센터 말투, 업계 금칙어, 내부 규정 같은 조직 고유의 맥락을 반영해 정확도와 수용성을 끌어올린다. 데이터 준비가 절반 이상을 좌우하며, 평가는 실제 배치 시나리오로 해야 과적합을 피할 수 있다. 파인튜닝은 만능열쇠가 아니며, RAG·프롬프트 가드레일과 함께 설계할 때 안정적이다.
14) 환각 : 할루시네이션 (Hallucination)
사실이 아닌 내용을 그럴듯하게 생성하는 현상으로, 생성형 모델의 대표적 리스크다. 원인은 지식 공백, 과도한 일반화, 모호한 프롬프트, 출처 부재 등이며, 대응은 RAG 도입·근거 요구·금지 규칙·인간 검토의 4단 병행이 효과적이다. '자신감 있는 거짓'이므로 톤이 단정적일수록 위험이 커진다. 고위험 도메인에서는 결과물을 '초안'으로 취급하고 승인 절차를 둬야 한다.
15) 얼라인먼트 (Alignment)
모델의 목표·행동을 인간의 가치·규칙에 맞추는 전 과정으로, 안전·법규·브랜드 보호의 토대다. 금칙어 필터, 개인정보·의료·법률 질의 차단, 근거 제시 의무, 정중한 톤 유지 같은 정책을 데이터·프롬프트·가드레일·감사 로그로 체계화한다. 얼라인먼트가 허술하면 성능이 좋아도 서비스는 지속 불가능하다. 기술 성능과 조직의 책임성이 만나는 지점이 바로 여기다.
AI가 열어가는 세상은 거창한 미래담론만으로는 설명되지 않는다. 프롬프트 하나를 어떻게 쓰느냐, 토큰 한도를 어떻게 관리하느냐, 환각과 얼라인먼트를 어떻게 점검하느냐 같은 작고 구체적인 단어들이 모여 신뢰와 활용도를 만든다. 결국 AI는 '거대한 마법'이 아니라, 우리가 올바르게 이해하고 다루어야 할 도구다. 단어의 의미를 아는 것은 그 도구의 안전핀을 쥐는 일이다. 지금 이 순간 용어를 익히고 정확히 이해하는 사람만이, 다가오는 AI 시대에 더 멀리 앞서 나갈 수 있다.
- 이전글2025년 한국에서 많이 사용되는 AI 플랫폼 : ChatGPT부터 그록까지 25.10.01
- 다음글AI시대 '사라질 직업'과 '살아남을 직업'은? GPT가 답하다 25.09.23
등록된 댓글이 없습니다.