কিট্টি

বর্ণনা :

কিট্টিতে একটি স্বায়ত্তশাসিত ড্রাইভিং প্ল্যাটফর্ম ব্যবহার করে নির্মিত দৃষ্টি কাজের একটি স্যুট রয়েছে। সম্পূর্ণ বেঞ্চমার্কে স্টেরিও, অপটিক্যাল ফ্লো, ভিজ্যুয়াল ওডোমেট্রি ইত্যাদির মতো অনেক কাজ রয়েছে। এই ডেটাসেটে একরঙা ছবি এবং বাউন্ডিং বক্স সহ অবজেক্ট ডিটেকশন ডেটাসেট রয়েছে। ডেটাসেটে 3D বাউন্ডিং বাক্সের সাথে টীকাযুক্ত 7481টি প্রশিক্ষণ চিত্র রয়েছে। কিট্টি হোমপেজে অবজেক্ট ডেভেলপমেন্ট কিট রিডমি-তে টীকাগুলির সম্পূর্ণ বিবরণ পাওয়া যাবে।

অতিরিক্ত ডকুমেন্টেশন : কোড সহ কাগজপত্রে অন্বেষণ করুন
হোমপেজ : http://www.cvlibs.net/datasets/kitti/
সোর্স কোড : tfds.datasets.kitti.Builder
সংস্করণ :
- 3.1.0 : কোনো রিলিজ নোট নেই।
- 3.2.0 : Devkit আপডেট করা হয়েছে।
- 3.3.0 (ডিফল্ট): occluded বৈশিষ্ট্যের জন্য লেবেল যোগ করা হয়েছে।
ডাউনলোড সাইজ : 11.71 GiB
ডেটাসেটের আকার : 5.27 GiB
স্বয়ংক্রিয় ক্যাশে ( ডকুমেন্টেশন ): না
বিভাজন :

বিভক্ত	উদাহরণ
`'test'`	711
`'train'`	৬,৩৪৭
`'validation'`	423

বৈশিষ্ট্য গঠন :

FeaturesDict({
    'image': Image(shape=(None, None, 3), dtype=uint8),
    'image/file_name': Text(shape=(), dtype=string),
    'objects': Sequence({
        'alpha': float32,
        'bbox': BBoxFeature(shape=(4,), dtype=float32, description=2D bounding box of object in the image),
        'dimensions': Tensor(shape=(3,), dtype=float32, description=3D object dimensions: height, width, length (in meters)),
        'location': Tensor(shape=(3,), dtype=float32, description=3D object location x,y,z in camera coordinates (in meters)),
        'occluded': ClassLabel(shape=(), dtype=int64, num_classes=4),
        'rotation_y': float32,
        'truncated': float32,
        'type': ClassLabel(shape=(), dtype=int64, num_classes=8),
    }),
})

বৈশিষ্ট্য ডকুমেন্টেশন :

বৈশিষ্ট্য	ক্লাস	আকৃতি	ডিটাইপ	বর্ণনা
	ফিচারসডিক্ট
ইমেজ	ছবি	(কোনটিই নয়, 3)	uint8
image/file_name	পাঠ্য		স্ট্রিং
বস্তু	সিকোয়েন্স
বস্তু/আলফা	টেনসর		float32	বস্তুর পর্যবেক্ষণ কোণ, পরিসর [-pi..pi]
বস্তু/bbox	বিবক্স ফিচার	(৪,)	float32	ছবিতে বস্তুর 2D বাউন্ডিং বক্স
বস্তু/মাত্রা	টেনসর	(৩,)	float32	3D বস্তুর মাত্রা: উচ্চতা, প্রস্থ, দৈর্ঘ্য (মিটারে)
বস্তু/অবস্থান	টেনসর	(৩,)	float32	ক্যামেরা স্থানাঙ্কে 3D অবজেক্টের অবস্থান x,y,z (মিটারে)
বস্তু/অবরোধ	ক্লাসলেবেল		int64	পূর্ণসংখ্যা (0,1,2,3) অবরোধ অবস্থা নির্দেশ করে: 0 = সম্পূর্ণরূপে দৃশ্যমান, 1 = আংশিকভাবে আটকানো2 = ব্যাপকভাবে আটকানো, 3 = অজানা
বস্তু/ঘূর্ণন_y	টেনসর		float32	ক্যামেরা স্থানাঙ্কে Y-অক্ষের চারপাশে ঘূর্ণন [-pi..pi]
বস্তু/কাটা	টেনসর		float32	0 (অ-কাটা) থেকে 1 (ছাঁটা) পর্যন্ত ভাসমান, যেখানে ছাঁটা মানে ছবির সীমানা ছেড়ে থাকা বস্তুকে বোঝায়
বস্তু/প্রকার	ক্লাসলেবেল		int64	বস্তুর ধরন, যেমন 'কার' বা 'ভ্যান'

তত্ত্বাবধান করা কী (দেখুন as_supervised doc ): None
চিত্র ( tfds.show_examples ):

ভিজ্যুয়ালাইজেশন

উদাহরণ ( tfds.as_dataframe ):

উদ্ধৃতি :

@inproceedings{Geiger2012CVPR,
  author = {Andreas Geiger and Philip Lenz and Raquel Urtasun},
  title = {Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite},
  booktitle = {Conference on Computer Vision and Pattern Recognition (CVPR)},
  year = {2012}
}