kddcup99

  • 説明:

これは、KDD-99 The Fifth International Conference on Knowledge Discovery and Data Mining と併せて開催された The Third International Knowledge Discovery and Data Mining Tools Competition で使用されたデータ セットです。競技課題は、侵入または攻撃と呼ばれる「悪い」接続と「良い」通常の接続を区別できる予測モデルである、ネットワーク侵入検出器を構築することでした。このデータベースには、軍事ネットワーク環境でシミュレートされたさまざまな侵入を含む、監査対象の標準的なデータ セットが含まれています。

スプリット
'test' 311,029
'train' 4,898,431
  • 機能構造:
FeaturesDict({
    'count': int32,
    'diff_srv_rate': float32,
    'dst_bytes': int32,
    'dst_host_count': int32,
    'dst_host_diff_srv_rate': float32,
    'dst_host_rerror_rate': float32,
    'dst_host_same_src_port_rate': float32,
    'dst_host_same_srv_rate': float32,
    'dst_host_serror_rate': float32,
    'dst_host_srv_count': int32,
    'dst_host_srv_diff_host_rate': float32,
    'dst_host_srv_rerror_rate': float32,
    'dst_host_srv_serror_rate': float32,
    'duration': int32,
    'flag': ClassLabel(shape=(), dtype=int64, num_classes=11),
    'hot': int32,
    'is_guest_login': bool,
    'is_hot_login': bool,
    'label': ClassLabel(shape=(), dtype=int64, num_classes=40),
    'land': bool,
    'logged_in': bool,
    'num_access_files': int32,
    'num_compromised': int32,
    'num_failed_logins': int32,
    'num_file_creations': int32,
    'num_outbound_cmds': int32,
    'num_root': int32,
    'num_shells': int32,
    'protocol_type': ClassLabel(shape=(), dtype=int64, num_classes=3),
    'rerror_rate': float32,
    'root_shell': bool,
    'same_srv_rate': float32,
    'serror_rate': float32,
    'service': ClassLabel(shape=(), dtype=int64, num_classes=71),
    'src_bytes': int32,
    'srv_count': int32,
    'srv_diff_host_rate': float32,
    'srv_rerror_rate': float32,
    'srv_serror_rate': float32,
    'su_attempted': int32,
    'urgent': int32,
    'wrong_fragment': int32,
})
  • 機能のドキュメント:
特徴クラスDtype説明
特徴辞書
カウントテンソルint32
diff_srv_rateテンソルfloat32
dst_bytesテンソルint32
dst_host_countテンソルint32
dst_host_diff_srv_rateテンソルfloat32
dst_host_rerror_rateテンソルfloat32
dst_host_same_src_port_rateテンソルfloat32
dst_host_same_srv_rateテンソルfloat32
dst_host_serror_rateテンソルfloat32
dst_host_srv_countテンソルint32
dst_host_srv_diff_host_rateテンソルfloat32
dst_host_srv_rerror_rateテンソルfloat32
dst_host_srv_serror_rateテンソルfloat32
間隔テンソルint32
国旗クラスラベルint64
ホットテンソルint32
is_guest_loginテンソルブール
is_hot_loginテンソルブール
ラベルクラスラベルint64
土地テンソルブール
ログイン済みテンソルブール
num_access_filesテンソルint32
num_compromisedテンソルint32
num_failed_loginsテンソルint32
num_file_creationsテンソルint32
num_outbound_cmdsテンソルint32
num_rootテンソルint32
num_shellsテンソルint32
protocol_typeクラスラベルint64
rerror_rateテンソルfloat32
root_shellテンソルブール
same_srv_rateテンソルfloat32
serror_rateテンソルfloat32
サービスクラスラベルint64
src_bytesテンソルint32
srv_countテンソルint32
srv_diff_host_rateテンソルfloat32
srv_rerror_rateテンソルfloat32
srv_serror_rateテンソルfloat32
su_attemptedテンソルint32
テンソルint32
wrong_fragmentテンソルint32
  • 引用
@misc{Dua:2019 ,
  author = "Dua, Dheeru and Graff, Casey",
  year = 2017,
  title = "{UCI} Machine Learning Repository",
  url = "http://archive.ics.uci.edu/ml",
  institution = "University of California, Irvine, School of Information and
Computer Sciences"
}