| 1. | Что это? |
Комплекс программ для извлечения разнообразной информации из HTML документа. Извлекается информация исходя из расположения на странице и её содержания. | |
| 2. | Какое состояние у проекта? |
В проекте... | |
| 3. | Как это работает? |
Просто. Переводим HTML в удобочитаемый формат и вытаскиваем информацию. | |
| 4. | Подробнее? Что сейчас писать надо? |
Вообще-то, предложения принимаются. Я вижу так. Разработать схему документа в соответствии с XML Schema. Написать конвертер HTML -> XML в соответствие с XML Schema. Доступ к информации обеспечивается стандартными средствами работы с XML. Остаётся написать логику над всем этим. | |
| 5. | Язык программирования? |
Perl, возможно C++. | |
| 6. | А это вообще-то кому-то нужно? |
Да. Мне. | |
| 7. | Ну а лицензия какая? |
| 8. | Хорошо. Хочу присоединиться? |
| 9. | Слышь, ты бы доточил пакет XXX? |
Я делаю то, что мне интересно. |