딥러닝: 신경망에 대한 적대적 공격

딥러닝

딥러닝: 신경망에 대한 적대적 공격

move84 2025. 3. 29. 16:33

신경망은 이미지 인식, 자연어 처리 등 다양한 분야에서 뛰어난 성능을 보여주지만, 적대적 공격 (Adversarial Attacks)에 취약하다는 사실이 밝혀졌다. 적대적 공격은 신경망이 오분류하도록 설계된 입력 데이터를 사용하는 공격 기법이다. 이 글에서는 적대적 공격의 개념, 유형, 방어 방법에 대해 자세히 알아본다.

🧠 적대적 공격이란 무엇인가? (What are Adversarial Attacks?)

적대적 공격은 신경망 모델의 예측을 속이기 위해 고안된 악의적인 공격 기법이다. 공격자는 모델의 입력 데이터에 미세한 노이즈 (noise)를 추가하여 모델이 잘못된 예측을 하도록 유도한다. 이 노이즈는 사람의 눈으로는 감지하기 어렵지만, 모델의 예측 결과에 큰 영향을 미칠 수 있다. 예를 들어, 고양이 사진에 눈에 띄지 않는 노이즈를 추가하여 모델이 이를 '개'로 잘못 인식하게 만들 수 있다.

 import tensorflow as tf
 import numpy as np
 from tensorflow.keras.applications.resnet50 import ResNet50, preprocess_input, decode_predictions
 from tensorflow.keras.preprocessing import image

 # ResNet50 모델 로드
 model = ResNet50(weights='imagenet')

 # 이미지 로드 및 전처리
 img_path = 'cat.jpg'
 img = image.load_img(img_path, target_size=(224, 224))
 x = image.img_to_array(img)
 x = np.expand_dims(x, axis=0)
 x = preprocess_input(x)

 # 예측 수행
 preds = model.predict(x)
 print('Predicted:', decode_predictions(preds, top=3)[0])

 # (적대적 공격 구현은 이 코드에서 생략 - 자세한 내용은 아래 참조)

🛡️ 적대적 공격의 유형 (Types of Adversarial Attacks)

적대적 공격은 크게 두 가지 유형으로 분류된다: 블랙 박스 공격 (Black-box Attacks)과 화이트 박스 공격 (White-box Attacks).

화이트 박스 공격 (White-box Attacks): 공격자가 대상 모델의 구조, 가중치, 기울기 (gradient) 등 모든 정보를 알고 있는 상태에서 수행하는 공격이다. 이러한 정보를 바탕으로 공격자는 입력 데이터에 추가할 최적의 노이즈를 계산할 수 있다. 대표적인 화이트 박스 공격 기법으로는 FGSM (Fast Gradient Sign Method), PGD (Projected Gradient Descent) 등이 있다.
- FGSM (Fast Gradient Sign Method): 입력 데이터의 기울기 부호 (sign)를 사용하여 노이즈를 생성한다. 기울기는 모델의 손실 함수를 입력 데이터에 대해 미분하여 계산되며, 기울기의 부호는 손실을 가장 크게 증가시키는 방향을 나타낸다. FGSM은 이 방향으로 작은 크기의 노이즈를 추가하여 모델의 예측을 변경한다.
```
# (예시: FGSM 간략화된 코드)
def fgsm(model, image, epsilon):
image = tf.convert_to_tensor(image)
with tf.GradientTape() as tape:
    tape.watch(image)
    prediction = model(image)
    loss = loss_fn(prediction, label) # label은 실제 정답
gradient = tape.gradient(loss, image)
signed_grad = tf.sign(gradient)
perturbed_image = image + epsilon * signed_grad
return perturbed_image
```
- PGD (Projected Gradient Descent): FGSM을 여러 번 반복하여 노이즈를 추가하는 기법이다. 각 반복에서 기울기를 계산하고, 노이즈를 추가한 후, 노이즈의 크기를 제한 (projection)하여 실제 이미지의 범위를 벗어나지 않도록 한다. PGD는 FGSM보다 강력한 공격을 수행할 수 있다.
블랙 박스 공격 (Black-box Attacks): 공격자가 대상 모델의 내부 구조나 가중치에 대한 정보를 알 수 없는 상태에서 수행하는 공격이다. 공격자는 모델의 입력과 출력만을 사용하여 공격을 시도한다. 블랙 박스 공격은 일반적으로 모델의 취약점을 파악하기 위해 쿼리 (query)를 사용한다. 쿼리는 모델에 입력 데이터를 넣어 얻은 결과를 의미한다. 블랙 박스 공격은 화이트 박스 공격보다 어렵지만, 현실적인 환경에서 더 유용할 수 있다. 대표적인 블랙 박스 공격 기법으로는 쿼리 기반 공격 (Query-based Attacks), 이전 학습 모델 기반 공격 (Transfer Attacks) 등이 있다.
- 쿼리 기반 공격 (Query-based Attacks): 공격자는 모델에 다양한 입력을 질의 (query)하여 얻은 결과를 바탕으로 적대적 예제를 생성한다. 이 방법은 모델의 출력을 관찰하여 모델의 취약점을 찾아내고, 이를 이용해 적대적 예제를 생성한다. 예시로, 흑백 이미지로 시작하여, 쿼리를 통해 손실을 최소화하는 방향으로 픽셀을 변경하는 방식이 있다.
- 이전 학습 모델 기반 공격 (Transfer Attacks): 공격자는 다른 모델 (대리 모델, surrogate model)을 학습시키고, 이 모델을 사용하여 적대적 예제를 생성한다. 생성된 적대적 예제는 대상 모델에도 적용될 가능성이 높다. 이는 서로 다른 모델들이 유사한 특징을 학습하는 경향이 있기 때문이다.

🛡️ 적대적 공격에 대한 방어 방법 (Defense against Adversarial Attacks)

신경망 모델을 적대적 공격으로부터 보호하기 위한 다양한 방어 방법이 연구되고 있다. 이러한 방어 방법은 크게 다음과 같이 분류된다:

적대적 훈련 (Adversarial Training): 적대적 예제를 훈련 데이터에 포함하여 모델을 재훈련하는 방법이다. 모델은 적대적 예제에 노출됨으로써 이러한 공격에 대한 견고성 (robustness)을 향상시킨다. 적대적 훈련은 가장 효과적인 방어 방법 중 하나로 알려져 있지만, 훈련 비용이 많이 든다는 단점이 있다.
# (예시: 적대적 훈련 간략화된 코드) for epoch in range(epochs): for images, labels in dataloader: # 1. 적대적 예제 생성 perturbed_images = fgsm(model, images, epsilon) # 2. 모델 훈련 (원래 이미지 및 적대적 예제 사용) with tf.GradientTape() as tape: predictions = model(perturbed_images) loss = loss_fn(labels, predictions) gradients = tape.gradient(loss, model.trainable_variables) optimizer.apply_gradients(zip(gradients, model.trainable_variables))
입력 변환 (Input Transformation): 입력 데이터를 전처리하여 적대적 노이즈의 영향을 줄이는 방법이다. 대표적인 입력 변환 기법으로는 잡음 제거 (denoising), 이미지 압축, 구배 마스킹 (gradient masking) 등이 있다.
- 잡음 제거 (Denoising): 입력 이미지에 존재하는 노이즈를 제거하는 기술이다. 예를 들어, 이미지에 가우시안 블러 (Gaussian blur)를 적용하여 노이즈를 완화할 수 있다.
- 이미지 압축 (Image Compression): 이미지 압축을 통해 미세한 변화가 모델의 예측에 미치는 영향을 줄일 수 있다. JPEG 압축과 같은 기법을 사용하여 이미지의 디테일을 줄임으로써 적대적 노이즈를 제거할 수 있다.
- 구배 마스킹 (Gradient Masking): 입력 데이터에 대한 기울기를 계산하기 전에 기울기를 마스킹 (masking)하여 적대적 노이즈의 영향을 줄이는 방법이다. 이 기법은 모델의 기울기 정보를 왜곡하여 공격자가 공격에 필요한 정보를 얻기 어렵게 만든다.
모델 수정 (Model Modification): 모델의 구조나 학습 방법을 변경하여 적대적 공격에 대한 견고성을 높이는 방법이다. 예를 들어, 앙상블 (ensemble) 기법을 사용하여 여러 모델의 예측을 결합함으로써 단일 모델의 취약점을 보완할 수 있다. 또, ReLU (Rectified Linear Unit) 활성 함수 대신 다른 활성 함수를 사용하거나, 모델의 정규화 (regularization) 강도를 높여 모델의 일반화 성능을 향상시킬 수 있다.

📚 핵심 용어 요약 (Key Term Summary)

적대적 공격 (Adversarial Attacks): 모델의 예측을 속이기 위해 고안된 악의적인 공격 기법.
노이즈 (Noise): 입력 데이터에 추가되어 모델의 예측을 변경하는 작은 변화.
화이트 박스 공격 (White-box Attacks): 모델의 모든 정보를 알고 수행하는 공격.
블랙 박스 공격 (Black-box Attacks): 모델의 내부 구조를 알 수 없이 수행하는 공격.
FGSM (Fast Gradient Sign Method): 기울기의 부호를 사용하여 노이즈를 생성하는 공격 기법.
PGD (Projected Gradient Descent): FGSM을 반복하여 노이즈를 추가하는 공격 기법.
적대적 훈련 (Adversarial Training): 적대적 예제를 포함하여 모델을 재훈련하는 방어 방법.
입력 변환 (Input Transformation): 입력 데이터를 전처리하여 적대적 노이즈의 영향을 줄이는 방어 방법.
모델 수정 (Model Modification): 모델의 구조나 학습 방법을 변경하여 방어하는 방법.적대적 공격은 딥러닝 모델의 취약성을 보여주는 중요한 연구 분야이다. 이러한 공격에 대한 이해와 방어 기술의 개발은 안전하고 신뢰할 수 있는 AI 시스템을 구축하는 데 필수적이다. 지속적인 연구를 통해 적대적 공격에 더욱 강력하게 대응하고, AI 기술의 발전을 이룰 수 있을 것이다.
🤖 결론 (Conclusion)