HTML File Analyzer


1. Что это?
2. Какое состояние у проекта?
3. Как это работает?
4. Подробнее? Что сейчас писать надо?
5. Язык программирования?
6. А это вообще-то кому-то нужно?
7. Ну а лицензия какая?
8. Хорошо. Хочу присоединиться?
9. Слышь, ты бы доточил пакет XXX?
1.

Что это?

Комплекс программ для извлечения разнообразной информации из HTML документа. Извлекается информация исходя из расположения на странице и её содержания.

2.

Какое состояние у проекта?

В проекте...

3.

Как это работает?

Просто. Переводим HTML в удобочитаемый формат и вытаскиваем информацию.

4.

Подробнее? Что сейчас писать надо?

Вообще-то, предложения принимаются. Я вижу так. Разработать схему документа в соответствии с XML Schema. Написать конвертер HTML -> XML в соответствие с XML Schema. Доступ к информации обеспечивается стандартными средствами работы с XML. Остаётся написать логику над всем этим.

5.

Язык программирования?

Perl, возможно C++.

6.

А это вообще-то кому-то нужно?

Да. Мне.

7.

Ну а лицензия какая?

GNU GENERAL PUBLIC LICENSE Version 3.

8.

Хорошо. Хочу присоединиться?

http://fireforge.net/projects/htmlfa/.

9.

Слышь, ты бы доточил пакет XXX?

Я делаю то, что мне интересно.