dataset-quality

Star

Here are 13 public repositories matching this topic...

Varun-Nair / open-data-eval

Star

Systematic quality evaluation suite for AI/ML datasets. 103 ego datasets audited. ISO 5259-2 aligned.

data-evaluation croissant quality-profiles ml-datasets dataset-quality egocentric-video iso-5259

Updated Apr 21, 2026
Python

Madave94 / kalos

Star

KALOS: Evaluate the quality of computer vision datasets

computer-vision object-detection data-quality instance-segmentation keypoint-detection data-driven-ai dataset-quality

Updated Mar 31, 2026
Python

m-saeid / ModeNetR_PointSkipNet

Star

Official repository for paper "Enhancing 3D Point Cloud Classification with ModelNet-R and Point-SkipNet"

deep-learning point-cloud modelnet data-refinement lightweight-model point-skipnet graph-based-neural-networks dataset-quality modelnet-r

Updated Mar 9, 2026
Python

FortOnwe / misinfo-eqa

Star

Evaluation QA harness for misinformation datasets: stress tests evidence quality, shortcuts, ambiguity, and ranking fragility.

nlp benchmarking machine-learning research evaluation fact-checking misinformation dataset-quality

Updated Apr 22, 2026
Python

(WIP): 'Aporia' in Greek means 'inconsistent'. A Python library that detects and fixes dataset issues using both rule-based methods and ML models. It evaluates dataset quality across multiple metrics, including missing values, duplicates, outliers, class imbalance, and label consistency. It also suggests fixes based on the metric scores.

machine-learning python-library outlier-detection convolutional-neural-networks data-preprocessing class-imbalance label-quality class-imbalance-handling dataset-quality

Updated Mar 28, 2025
Jupyter Notebook

Wack520 / academic-data-hunter

Star

面向研究、竞赛与论文场景的可追溯数据采集与交付工具

python benchmarking open-data reproducibility ai-agents data-provenance academic-research mcp-server dataset-quality research-workflow

Updated Apr 19, 2026
Python

Amankumarsingh23 / cv-dataset-inspector

Star

CV Dataset Quality Inspector — React-based tool for detecting quality issues in computer vision annotation datasets. Auto-detects bbox errors, visualizes class imbalance, and exports quality reports — built for AV/CV ML pipelines.

computer-vision annotation-tool bounding-box dataset-quality

Updated Apr 8, 2026
TypeScript

dhrvgpta / parking-occupancy-supervision-study

Star

How much labeled data do you actually need to deploy a parking occupancy system at a never-before-seen lot? A supervision study spanning CLIP zero-shot → ResNet-18 few-shot → full supervision on 432k parking space crops, with dataset annotation error discovery. Trained on NVIDIA A100 via IU Big Red 200.

python computer-vision deep-learning hpc pytorch supervised-learning resnet clip indiana-university few-shot-learning dataset-quality parking-occupancy pklot

Updated Apr 6, 2026
Python

TamerDotWork / vesper

Star

Agentic data intelligence tool using LangChain & Pandas for automated dataset cleaning, governance, and quality analysis.

python machine-learning automation etl ml pandas data-analysis data-preprocessing data-preparation data-cleaning data-governance etl-automation ai-assistant langchain data-cleaning-and-preprocessing agentic-tool-platform dataset-quality agentic-tool ai-assistant-offline

Updated Jan 18, 2026
HTML

Adolfds / prompt-engineering-notes

Star

Practical lessons on prompt engineering for code-generation datasets used to train LLMs. Patterns and failure modes from real task audits.

code-generation prompt-engineering rlhf llm-training llm-evaluation dataset-quality

Updated Apr 24, 2026

sigdelsanjog / dsqus

Star

The Dataset Quality Scoring Engine (DQS) evaluates the quality of any dataset using automated, model-agnostic metrics. The system processes user-uploaded datasets, computes embeddings, analyzes statistical and semantic properties, and outputs a standardized quality score

python open-source machine-learning deep-learning pandas data-engineering dataset pip data-analytics language-model data-standards openpyxl python-package dataset-quality

Updated Apr 8, 2026
JavaScript

eloriana / vlm-dataflywheel

Star

Lightweight toolkit for multimodal data curation and quality triage

vlm data-curation training-data multimodal llm dataset-quality

Updated Mar 6, 2026
Python

Adolfds / Adolfds

Star

LLM Code Trainer & Dataset Quality Reviewer at Revelo. Prompt engineering, multi-language code review (Python, TS/JS, C, C++). Remote, EN/PT.

code-review ai-training prompt-engineering llm-training dataset-quality

Updated Apr 24, 2026

Improve this page

Add a description, image, and links to the dataset-quality topic page so that developers can more easily learn about it.

Curate this topic

Add this topic to your repo

To associate your repository with the dataset-quality topic, visit your repo's landing page and select "manage topics."

Learn more

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

dataset-quality

Here are 13 public repositories matching this topic...

Varun-Nair / open-data-eval

Madave94 / kalos

m-saeid / ModeNetR_PointSkipNet

FortOnwe / misinfo-eqa

ZeroDeaths7 / AporiaPy

Wack520 / academic-data-hunter

Amankumarsingh23 / cv-dataset-inspector

dhrvgpta / parking-occupancy-supervision-study

TamerDotWork / vesper

Adolfds / prompt-engineering-notes

sigdelsanjog / dsqus

eloriana / vlm-dataflywheel

Adolfds / Adolfds

Improve this page

Add this topic to your repo