セキュリティに関するニュースを淡々と伝えるスレ10 (778レス)
上
下
前
次
1-
新
232
: 2023/08/24(木)10:35
AA×
外部リンク:ledge.ai
[240|
320
|
480
|
600
|
100%
|
JPG
|
べ
|
レス栞
|
レス消
]
232: [] 2023/08/24(木) 10:35:47.85 ChatGPTに「人類の滅ぼし方」「爆弾製造法」書かせる技術判明 “深層学習モデルには本質的に回避不能な脅威” https://ledge.ai/articles/adp_pronpt 質問の最後に「ADV PROMPT(敵対的プロンプト)」を追加するだけで、LLMの防御策を突破し、危険な回答を生成させることに成功した。 論文では「深層学習モデルは本質的にこうした脅威を避けられない可能性がある」としている。 ChatGPT、Bard、Claude などLLMを用いた対話型AIは、質問に有害な回答を生成しないよう広範囲にわたってファインチューニングを施している。 しかし、研究チームが発表した手法は、完全に自動化した手法で作成した敵対的プロンプトを追加するだけでLLMが不適切な振る舞いや回答を生成するようになり、事実上無制限に攻撃を繰り出せるという。 http://medaka.5ch.net/test/read.cgi/sec/1657700535/232
に人類の滅ぼし方爆弾製造法書かせる技術判明 深層学習モデルには本質的に回避不能な脅威 質問の最後に 敵対的プロンプトを追加するだけでの防御策を突破し危険な回答を生成させることに成功した 論文では深層学習モデルは本質的にこうした脅威を避けられない可能性があるとしている などを用いた対話型は質問に有害な回答を生成しないよう広範囲にわたってファインチューニングを施している しかし研究チームが発表した手法は完全に自動化した手法で作成した敵対的プロンプトを追加するだけでが不適切な振る舞いや回答を生成するようになり事実上無制限に攻撃を繰り出せるという
上
下
前
次
1-
新
書
関
写
板
覧
索
設
栞
歴
あと 546 レスあります
スレ情報
赤レス抽出
画像レス抽出
歴の未読スレ
AAサムネイル
ぬこの手
ぬこTOP
0.033s