Changelog

English | 简体中文

Changelog

2024/11/25: Project Initialization

llm-web-kit

Project Introduction

llm-web-kit is a python library that ..

Key Features

Remove headers, footers, footnotes, page numbers, etc., to ensure semantic coherence.
Output text in human-readable order, suitable for single-column, multi-column, and complex layouts.

Quick Start

extract by magic_html+recognize

from llm_web_kit.simple import extract_html_to_md, extract_html_to_mm_md
import traceback
from loguru import logger

def extract(url:str, html:str) -> str:
    try:
        nlp_md = extract_html_to_md(url, html)
        # or mm_nlp_md = extract_html_to_mm_md(url, html)
        return nlp_md
    except Exception as e:
        logger.exception(e)
    return None

if __name__=="__main__":
    url = ""
    html = ""
    markdown = extract(url, html)

only extract by recognize

from llm_web_kit.simple import extract_html_to_md, extract_html_to_mm_md
import traceback
from loguru import logger

def extract(url:str, raw_html:str) -> str:
    try:
        nlp_md = extract_html_to_md(url, raw_html, clip_html=False)
        # or mm_nlp_md = extract_html_to_mm_md(url, raw_html, clip_html=False)
        return nlp_md
    except Exception as e:
        logger.exception(e)
    return None

if __name__=="__main__":
    url = ""
    html = ""
    markdown = extract(url, html)

only extract main_html by magic-html

from llm_web_kit.simple import extract_main_html_by_maigic_html
import traceback
from loguru import logger

def extract(url:str, html:str) -> str:
    try:
        main_html = extract_main_html_by_maigic_html(url, html)
        # or mm_main_html = extract_pure_html_to_mm_md(url, html)
        return main_html
    except Exception as e:
        logger.exception(e)
    return None

if __name__=="__main__":
    url = ""
    html = ""
    main_html = extract(url, html)

Name		Name	Last commit message	Last commit date
Latest commit History 521 Commits
.github		.github
bench		bench
docs		docs
jupyter		jupyter
llm_web_kit		llm_web_kit
requirements		requirements
tests		tests
.codecov.yml		.codecov.yml
.gitignore		.gitignore
.pre-commit-config.yaml		.pre-commit-config.yaml
README.md		README.md
README_zh-CN.md		README_zh-CN.md
output.md		output.md
requirements.txt		requirements.txt
setup.py		setup.py
update_version.py		update_version.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Changelog

Table of Contents

llm-web-kit

Project Introduction

Key Features

Quick Start

extract by magic_html+recognize

only extract by recognize

only extract main_html by magic-html

Pipeline

Usage

TODO

Known Issues

FAQ

contributors

License Information

Acknowledgments

Citation

Star History

links

About

Uh oh!

Releases 5

Packages

Uh oh!

Contributors 21

Uh oh!

Languages

ccprocessor/llm-webkit-mirror

Folders and files

Latest commit

History

Repository files navigation

Changelog

Table of Contents

llm-web-kit

Project Introduction

Key Features

Quick Start

extract by magic_html+recognize

only extract by recognize

only extract main_html by magic-html

Pipeline

Usage

TODO

Known Issues

FAQ

contributors

License Information

Acknowledgments

Citation

Star History

links

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases 5

Packages 0

Uh oh!

Contributors 21

Uh oh!

Languages

Packages