В MIT разработали систему автоматической очистки беспорядочных данных
Исследователи Массачусетского технологического института создали систему PClean, которая автоматически очищает «грязные» данные в таблицах: опечатки, дубликаты, пропущенные значения, орфографические ошибки и несоответствия.
Алгоритм использует подход, основанный на знаниях. Пользователь предоставляет ему информацию о базе данных и указывает основные проблемы, которые могут возникнуть в процессе очистки.
Затем программа объединяет эти знания с помощью вероятностных рассуждений, основанных на логике, и дает ответ. Например, учитывая дополнительные сведения о типичной арендной плате, PClean может дополнить таблицу со списком квартир и правильно определить Беверли-Хиллз из Калифорнии, а не аналогичный город, расположенный во Флориде или Техасе.
Соавтор статьи и аспирант кафедры электротехники и компьютерных наук Алекс Лью сказал, что PClean дает возможность заручиться поддержкой компьютеров так же, как люди обращаются за помощью друг к другу.
«PClean позволяет сообщить компьютеру, что я знаю о проблеме, кодируя те же базовые знания, которые я бы объяснил человеку. […] Я также могу указать подсказки и уловки, которые уже известны, для более быстрого решения задачи», — добавил исследователь.
Разработчики утверждают, что PClean — это первая система очистки данных, которая может сочетать знания в предметной области с логическими рассуждениями для автоматической очистки таблиц от миллионов записей за счет трех нововведений:
- язык сценариев позволяет пользователям кодировать то, что они знают, для увеличения точности модели;
- алгоритм вывода использует двухэтапный подход, основанный на обработке записей по очереди, чтобы сделать обоснованные предположения об их очистке, а затем пересмотреть свои суждения для исправления ошибок;
- специальный компилятор генерирует код быстрого вывода, позволяя программе работать с базами данных с миллионами записей с высокой скоростью.
По словам исследователей, PClean упрощает и удешевляет объединение беспорядочных, несовместимых баз данных в чистые записи без огромных инвестиций в человеческие и программные системы.
Несмотря на потенциальные социальные преимущества, разработчики предупредили о рисках, в том числе вторжения в частную жизнь людей и их деанонимизации путем объединения неполной информации из нескольких общедоступных источников.
PClean доступен всем желающим. Исходный код системы разработчики опубликовали на GitHub.
Напомним, в мае ученые с помощью ИИ ускорили моделирование Вселенной в 1000 раз.
В апреле ученые из Университета Райса разработали метод обучения нейросетей на центральном процессоре, который работает в 15 раз быстрее, чем на графических ускорителях.
Подписывайтесь на новости ForkLog в Telegram: ForkLog AI — все новости из мира ИИ!
Рассылки ForkLog: держите руку на пульсе биткоин-индустрии!