1. Общие сведения
Название проекта: Улучшение анимации движения губ в open source проекте Wav2Lip.
Цель проекта: Реализация улучшений в алгоритме синтеза движения губ на основе аудиоданных для корректного отображения зубов и языка, а также устранение некорректных пауз в мимике при речевых паузах.
2. Описание исходного проекта
Основная ссылка на проект: Wav2Lip GitHub
Дополнительная ссылка: Wav2Lip High Resolution GitHub
Проблематика: Существующая модель не улавливает детали, такие как зубы и язык, и имеет пропуски в анимации при паузах в речи.
3. Технические требования
Исходные данные: Использование любого качественного видео длительностью около 3 минут, где размер лица занимает значительную часть кадра, включая плечи.
Ключевые улучшения:
Точное воспроизведение деталей лица, включая зубы и язык.
Улучшение синхронизации мимики с речевыми паузами (отсутствие мимики в моменты тишины).
4. Методы реализации
Дообучение модели: Возможно использование дообучения на специфическом видео для улучшения детализации и точности.
Оптимизация гиперпараметров: Адаптация и тонкая настройка параметров модели для повышения её эффективности и точности.
5. Этапы разработки
Анализ исходного кода: Изучение текущей реализации и идентификация основных узких мест.
Подготовка данных: Сбор и подготовка видеоматериалов для тренировки и тестирования модели.
Прототипирование: Разработка прототипа с улучшенными функциями.
Тестирование: Верификация работы модели на тестовом наборе данных.
Оптимизация и дообучение: Финальная настройка модели для достижения желаемых результатов.
6. Требования к исполнителям
Предложение: Подача предложения с указанием предварительного таймлайна и стоимости реализации проекта.
Опыт работы с машинным обучением и компьютерным зрением.
Предыдущий опыт работы с аудио-визуальной синхронизацией.
7. Бюджет и оплата
Тип оплаты: Фиксированная оплата, основанная на достижении установленных критерии успешности: Определенный уровень точности в отображении деталей лица (зубы и язык) и корректное управление мимикой во время речевых пауз.
8. Сроки проекта
Предварительные сроки: Проект должен быть завершен в течение 1-2 месяцев с момента начала работы. Точные сроки должны быть предложены исполнителем и согласованы с заказчиком.
9. Процедура подачи предложений
Подача предложения: Исполнители должны представить свои предложения, включающие техническое решение, предварительный план работы, оценку стоимости и таймлайн.
Выбор исполнителя: Оценка предложений будет проводиться на основании технической оснащенности, опыта команды, предлагаемой стоимости и сроков реализации.
Дополнительные условия: Заказчик оставляет за собой право запросить демонстрацию промежуточных результатов для оценки прогресса и возможности корректировки требований или сроков.
Описание прилагаемых файлов:
В предоставленном видеофайле демонстрируется анимация движения губ, где наблюдаются моменты продолжения анимации в отсутствие звука. Этот аспект требует коррекции, так как анимация должна точно соответствовать аудио сигналам, особенно в паузах, чтобы предотвратить любые нежелательные движения губ в моменты тишины.
Кроме того, замечены визуальные дефекты в изображении губ, такие как ненатуральные цвет и форма. Эти дефекты нужно исправить для достижения более естественного вида анимации. Особое внимание следует уделить региону открытого рта, где в текущей анимации отсутствуют зубы. Для усиления реалистичности анимации необходимо добавить зубы, чтобы изображение выглядело более естественно и правдоподобно.
Эти проблемы критичны для функциональности проекта и должны быть устранены в рамках запланированных улучшений.
Разделы:
Опубликован:
15.04.2024 | 13:46 [поднят: 15.04.2024 | 13:46]