diff --git a/keras_hub/src/models/__init__.py b/keras_hub/src/models/__init__.py
index e69de29bb2..d6348093b2 100644
--- a/keras_hub/src/models/__init__.py
+++ b/keras_hub/src/models/__init__.py
@@ -0,0 +1 @@
+"""LayoutLMv3 document classifier."""
diff --git a/keras_hub/src/models/layoutlmv3/__init__.py b/keras_hub/src/models/layoutlmv3/__init__.py
new file mode 100644
index 0000000000..3f6b92bcf3
--- /dev/null
+++ b/keras_hub/src/models/layoutlmv3/__init__.py
@@ -0,0 +1,19 @@
+from keras_hub.src.models.layoutlmv3.layoutlmv3_backbone import (
+    LayoutLMv3Backbone,
+)
+from keras_hub.src.models.layoutlmv3.layoutlmv3_presets import backbone_presets
+from keras_hub.src.models.layoutlmv3.layoutlmv3_tokenizer import (
+    LayoutLMv3Tokenizer,
+)
+from keras_hub.src.models.layoutlmv3.layoutlmv3_transformer import (
+    LayoutLMv3Transformer,
+)
+from keras_hub.src.utils.preset_utils import register_presets
+
+__all__ = [
+    "LayoutLMv3Backbone",
+    "LayoutLMv3Tokenizer",
+    "LayoutLMv3Transformer",
+]
+
+register_presets(backbone_presets, LayoutLMv3Backbone)
diff --git a/keras_hub/src/models/layoutlmv3/layoutlmv3_backbone.py b/keras_hub/src/models/layoutlmv3/layoutlmv3_backbone.py
new file mode 100644
index 0000000000..a20c0d07ed
--- /dev/null
+++ b/keras_hub/src/models/layoutlmv3/layoutlmv3_backbone.py
@@ -0,0 +1,373 @@
+"""
+LayoutLMv3 backbone model implementation.
+
+This module implements the LayoutLMv3 model architecture as described in
+"LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking"
+(https://arxiv.org/abs/2204.08387).
+
+The LayoutLMv3 model is a multimodal transformer that combines text, layout,
+and visual information for document understanding tasks. It uses a unified
+architecture to process both text and image inputs, with special attention to
+spatial relationships in documents.
+
+Example:
+```python
+# Initialize backbone from preset
+backbone = LayoutLMv3Backbone.from_preset("layoutlmv3_base")
+
+# Process document image and text
+outputs = backbone({
+    "input_ids": input_ids,  # Shape: (batch_size, seq_length)
+    "bbox": bbox,  # Shape: (batch_size, seq_length, 4)
+    "attention_mask": attention_mask,  # Shape: (batch_size, seq_length)
+    "image": image  # Shape: (batch_size, height, width, channels)
+})
+```
+
+References:
+- [LayoutLMv3 Paper](https://arxiv.org/abs/2204.08387)
+- [LayoutLMv3 GitHub](https://github.com/microsoft/unilm/tree/master/layoutlmv3)
+"""
+
+from typing import Optional
+
+from keras import backend
+from keras import layers
+from keras.saving import register_keras_serializable
+
+from keras_hub.src.api_export import keras_hub_export
+from keras_hub.src.models.backbone import Backbone
+
+from .layoutlmv3_presets import backbone_presets
+from .layoutlmv3_transformer import LayoutLMv3TransformerLayer
+
+
+@keras_hub_export("keras_hub.models.LayoutLMv3Backbone")
+@register_keras_serializable(package="keras_hub")
+class LayoutLMv3Backbone(Backbone):
+    """LayoutLMv3 backbone model for document understanding tasks.
+
+    This class implements the LayoutLMv3 model architecture for joint text and
+    layout understanding in document AI tasks. It processes both text and image
+    inputs while maintaining spatial relationships in documents.
+
+    Args:
+        vocab_size: int. Size of the vocabulary. Defaults to 30522.
+        hidden_size: int. Size of the hidden layers. Defaults to 768.
+        num_hidden_layers: int. Number of transformer layers. Defaults to 12.
+        num_attention_heads: int. Number of attention heads. Defaults to 12.
+        intermediate_size: int. Size of the intermediate layer. Defaults to
+            3072.
+        hidden_act: str. Activation function for the hidden layers. Defaults to
+            "gelu".
+        hidden_dropout_prob: float. Dropout probability for hidden layers.
+            Defaults to 0.1.
+        attention_probs_dropout_prob: float. Dropout probability for attention
+            layers. Defaults to 0.1.
+        max_position_embeddings: int. Maximum sequence length. Defaults to 512.
+        type_vocab_size: int. Size of the token type vocabulary. Defaults to 2.
+        initializer_range: float. Range for weight initialization. Defaults to
+            0.02.
+        layer_norm_eps: float. Epsilon for layer normalization. Defaults to
+            1e-12.
+        pad_token_id: int. ID of the padding token. Defaults to 0.
+        position_embedding_type: str. Type of position embedding. Defaults to
+            "absolute".
+        use_cache: bool. Whether to use caching. Defaults to True.
+        classifier_dropout: float. Dropout probability for classifier. Defaults
+            to None.
+        patch_size: int. Size of image patches. Defaults to 16.
+        num_channels: int. Number of image channels. Defaults to 3.
+        qkv_bias: bool. Whether to use bias in QKV projection. Defaults to
+            True.
+        use_abs_pos: bool. Whether to use absolute position embeddings.
+            Defaults to True.
+        use_rel_pos: bool. Whether to use relative position embeddings.
+            Defaults to True.
+        rel_pos_bins: int. Number of relative position bins. Defaults to 32.
+        max_rel_pos: int. Maximum relative position. Defaults to 128.
+        spatial_embedding_dim: int. Dimension of spatial embeddings. Defaults
+            to 64.
+
+    References:
+        - [LayoutLMv3 Paper](https://arxiv.org/abs/2204.08387)
+        - [LayoutLMv3 GitHub](https://github.com/microsoft/unilm/tree/master/layoutlmv3)
+    """
+
+    presets = backbone_presets
+
+    def __init__(
+        self,
+        vocab_size: int = 30522,
+        hidden_size: int = 768,
+        num_hidden_layers: int = 12,
+        num_attention_heads: int = 12,
+        intermediate_size: int = 3072,
+        hidden_act: str = "gelu",
+        hidden_dropout_prob: float = 0.1,
+        attention_probs_dropout_prob: float = 0.1,
+        max_position_embeddings: int = 512,
+        type_vocab_size: int = 2,
+        initializer_range: float = 0.02,
+        layer_norm_eps: float = 1e-12,
+        pad_token_id: int = 0,
+        position_embedding_type: str = "absolute",
+        use_cache: bool = True,
+        classifier_dropout: Optional[float] = None,
+        patch_size: int = 16,
+        num_channels: int = 3,
+        qkv_bias: bool = True,
+        use_abs_pos: bool = True,
+        use_rel_pos: bool = True,
+        rel_pos_bins: int = 32,
+        max_rel_pos: int = 128,
+        spatial_embedding_dim: int = 64,
+        **kwargs,
+    ):
+        super().__init__(**kwargs)
+
+        self.vocab_size = vocab_size
+        self.hidden_size = hidden_size
+        self.num_hidden_layers = num_hidden_layers
+        self.num_attention_heads = num_attention_heads
+        self.intermediate_size = intermediate_size
+        self.hidden_act = hidden_act
+        self.hidden_dropout_prob = hidden_dropout_prob
+        self.attention_probs_dropout_prob = attention_probs_dropout_prob
+        self.max_position_embeddings = max_position_embeddings
+        self.type_vocab_size = type_vocab_size
+        self.initializer_range = initializer_range
+        self.layer_norm_eps = layer_norm_eps
+        self.pad_token_id = pad_token_id
+        self.position_embedding_type = position_embedding_type
+        self.use_cache = use_cache
+        self.classifier_dropout = classifier_dropout
+
+        # Input layers
+        self.input_ids = layers.Input(
+            shape=(None,), dtype="int32", name="input_ids"
+        )
+        self.bbox = layers.Input(shape=(None, 4), dtype="int32", name="bbox")
+        self.attention_mask = layers.Input(
+            shape=(None,), dtype="int32", name="attention_mask"
+        )
+        self.image = layers.Input(
+            shape=(None, None, None, num_channels),
+            dtype="float32",
+            name="image",
+        )
+
+        # Embeddings
+        self.word_embeddings = layers.Embedding(
+            vocab_size, hidden_size, name="embeddings.word_embeddings"
+        )
+
+        # Position embeddings
+        self.x_position_embeddings = layers.Embedding(
+            1024, spatial_embedding_dim, name="embeddings.x_position_embeddings"
+        )
+        self.y_position_embeddings = layers.Embedding(
+            1024, spatial_embedding_dim, name="embeddings.y_position_embeddings"
+        )
+        self.h_position_embeddings = layers.Embedding(
+            1024, spatial_embedding_dim, name="embeddings.h_position_embeddings"
+        )
+        self.w_position_embeddings = layers.Embedding(
+            1024, spatial_embedding_dim, name="embeddings.w_position_embeddings"
+        )
+        self.token_type_embeddings = layers.Embedding(
+            type_vocab_size,
+            hidden_size,
+            name="embeddings.token_type_embeddings",
+        )
+
+        # Layer normalization
+        self.embeddings_LayerNorm = layers.LayerNormalization(
+            epsilon=layer_norm_eps, name="embeddings.LayerNorm"
+        )
+        self.norm = layers.LayerNormalization(
+            epsilon=layer_norm_eps, name="norm"
+        )
+
+        # Spatial embedding projections
+        self.x_proj = layers.Dense(hidden_size, name="x_proj")
+        self.y_proj = layers.Dense(hidden_size, name="y_proj")
+        self.h_proj = layers.Dense(hidden_size, name="h_proj")
+        self.w_proj = layers.Dense(hidden_size, name="w_proj")
+
+        # Transformer encoder layers
+        self.encoder_layers = [
+            LayoutLMv3TransformerLayer(
+                hidden_size=hidden_size,
+                num_attention_heads=num_attention_heads,
+                intermediate_size=intermediate_size,
+                hidden_act=hidden_act,
+                hidden_dropout_prob=hidden_dropout_prob,
+                attention_probs_dropout_prob=attention_probs_dropout_prob,
+                initializer_range=initializer_range,
+                layer_norm_eps=layer_norm_eps,
+                qkv_bias=qkv_bias,
+                use_rel_pos=use_rel_pos,
+                rel_pos_bins=rel_pos_bins,
+                max_rel_pos=max_rel_pos,
+                name=f"encoder.layer.{i}",
+            )
+            for i in range(num_hidden_layers)
+        ]
+
+        # Image processing
+        self.patch_embed = layers.Conv2D(
+            hidden_size,
+            kernel_size=(patch_size, patch_size),
+            strides=(patch_size, patch_size),
+            name="patch_embed.proj",
+        )
+        self.patch_embed_layer_norm = layers.LayerNormalization(
+            epsilon=layer_norm_eps, name="LayerNorm"
+        )
+
+        # CLS token
+        self.cls_token = self.add_weight(
+            shape=(1, 1, hidden_size),
+            initializer="random_normal",
+            trainable=True,
+            name="cls_token",
+        )
+
+        # Pooler
+        self.pooler = layers.Dense(
+            hidden_size, activation="tanh", name="pooler"
+        )
+
+    def call(self, inputs):
+        """Process text and image inputs through the LayoutLMv3 model.
+
+        Args:
+            inputs: Dictionary containing:
+                - input_ids: Int tensor of shape (batch_size, sequence_length)
+                - bbox: Int tensor of shape (batch_size, sequence_length, 4)
+                - attention_mask: Int tensor of shape (batch_size,
+                  sequence_length)
+                - image: Float tensor of shape (batch_size, height, width,
+                  channels)
+
+        Returns:
+            Dictionary containing:
+                - sequence_output: Float tensor of shape (batch_size,
+                  sequence_length, hidden_size)
+                - pooled_output: Float tensor of shape (batch_size,
+                  hidden_size)
+                - hidden_states: List of tensors of shape (batch_size,
+                  sequence_length, hidden_size)
+
+        Example:
+        ```python
+            model = LayoutLMv3Backbone.from_preset("layoutlmv3_base")
+            outputs = model({
+                "input_ids": input_ids,
+                "bbox": bbox,
+                "attention_mask": attention_mask,
+                "image": image
+            })
+        ```
+        """
+        # Extract inputs
+        input_ids = inputs["input_ids"]
+        bbox = inputs["bbox"]
+        attention_mask = inputs["attention_mask"]
+
+        # Get word embeddings
+        word_embeddings = self.word_embeddings(input_ids)
+
+        # Get spatial embeddings
+        x_embeddings = self.x_position_embeddings(bbox[..., 0])
+        y_embeddings = self.y_position_embeddings(bbox[..., 1])
+        h_embeddings = self.h_position_embeddings(bbox[..., 2])
+        w_embeddings = self.w_position_embeddings(bbox[..., 3])
+
+        # Project spatial embeddings to hidden size
+        x_embeddings = self.x_proj(x_embeddings)
+        y_embeddings = self.y_proj(y_embeddings)
+        h_embeddings = self.h_proj(h_embeddings)
+        w_embeddings = self.w_proj(w_embeddings)
+
+        # Combine embeddings
+        embeddings = (
+            word_embeddings
+            + x_embeddings
+            + y_embeddings
+            + h_embeddings
+            + w_embeddings
+        )
+
+        # Add token type embeddings
+        token_type_ids = backend.zeros_like(input_ids)
+        token_type_embeddings = self.token_type_embeddings(token_type_ids)
+        embeddings = embeddings + token_type_embeddings
+
+        # Apply layer normalization
+        embeddings = self.embeddings_LayerNorm(embeddings)
+
+        # Apply dropout
+        embeddings = self.embeddings_dropout(embeddings)
+
+        # Process through transformer layers
+        hidden_states = [embeddings]
+        for layer in self.transformer_layers:
+            hidden_state = layer(
+                hidden_states[-1],
+                attention_mask=attention_mask,
+            )
+            hidden_states.append(hidden_state)
+
+        # Get sequence output
+        sequence_output = hidden_states[-1]
+
+        # Apply final layer normalization
+        sequence_output = self.norm(sequence_output)
+
+        # Get pooled output
+        pooled_output = self.pooler(sequence_output[:, 0])
+
+        return {
+            "sequence_output": sequence_output,
+            "pooled_output": pooled_output,
+            "hidden_states": hidden_states,
+        }
+
+    def get_config(self):
+        """Get the model configuration.
+
+        Returns:
+            A dictionary containing the model configuration.
+        """
+        config = super().get_config()
+        config.update({
+            "vocab_size": self.vocab_size,
+            "hidden_size": self.hidden_size,
+            "num_hidden_layers": self.num_hidden_layers,
+            "num_attention_heads": self.num_attention_heads,
+            "intermediate_size": self.intermediate_size,
+            "hidden_act": self.hidden_act,
+            "hidden_dropout_prob": self.hidden_dropout_prob,
+            "attention_probs_dropout_prob": (
+                self.attention_probs_dropout_prob
+            ),
+            "max_position_embeddings": self.max_position_embeddings,
+            "type_vocab_size": self.type_vocab_size,
+            "initializer_range": self.initializer_range,
+            "layer_norm_eps": self.layer_norm_eps,
+            "pad_token_id": self.pad_token_id,
+            "position_embedding_type": self.position_embedding_type,
+            "use_cache": self.use_cache,
+            "classifier_dropout": self.classifier_dropout,
+            "patch_size": self.patch_size,
+            "num_channels": self.num_channels,
+            "qkv_bias": self.qkv_bias,
+            "use_abs_pos": self.use_abs_pos,
+            "use_rel_pos": self.use_rel_pos,
+            "rel_pos_bins": self.rel_pos_bins,
+            "max_rel_pos": self.max_rel_pos,
+            "spatial_embedding_dim": self.spatial_embedding_dim,
+        })
+        return config
diff --git a/keras_hub/src/models/layoutlmv3/layoutlmv3_backbone_test.py b/keras_hub/src/models/layoutlmv3/layoutlmv3_backbone_test.py
new file mode 100644
index 0000000000..e69de29bb2
diff --git a/keras_hub/src/models/layoutlmv3/layoutlmv3_document_classifier_preprocessor.py b/keras_hub/src/models/layoutlmv3/layoutlmv3_document_classifier_preprocessor.py
new file mode 100644
index 0000000000..e69de29bb2
diff --git a/keras_hub/src/models/layoutlmv3/layoutlmv3_presets.py b/keras_hub/src/models/layoutlmv3/layoutlmv3_presets.py
new file mode 100644
index 0000000000..506a1963d7
--- /dev/null
+++ b/keras_hub/src/models/layoutlmv3/layoutlmv3_presets.py
@@ -0,0 +1,28 @@
+"""LayoutLMv3 model preset configurations."""
+
+backbone_presets = {
+    "layoutlmv3_base": {
+        "metadata": {
+            "description": (
+                "12-layer LayoutLMv3 model with visual backbone. "
+                "Trained on IIT-CDIP dataset for document understanding."
+            ),
+            "params": 113000000,
+            "path": "layoutlmv3",
+        },
+        "kaggle_handle": "kaggle://keras/layoutlmv3/keras/layoutlmv3_base/1",
+    },
+    "layoutlmv3_large": {
+        "metadata": {
+            "description": (
+                "24-layer LayoutLMv3 model with multimodal "
+                "(text + layout + image) understanding capabilities. "
+                "Trained on IIT-CDIP, RVL-CDIP, FUNSD, CORD, SROIE, "
+                "and DocVQA datasets."
+            ),
+            "params": 340787200,
+            "path": "layoutlmv3",
+        },
+        "kaggle_handle": "kaggle://keras/layoutlmv3/keras/layoutlmv3_large/3",
+    },
+}
diff --git a/keras_hub/src/models/layoutlmv3/layoutlmv3_tokenizer.py b/keras_hub/src/models/layoutlmv3/layoutlmv3_tokenizer.py
new file mode 100644
index 0000000000..f12aaef41d
--- /dev/null
+++ b/keras_hub/src/models/layoutlmv3/layoutlmv3_tokenizer.py
@@ -0,0 +1,245 @@
+"""
+LayoutLMv3 tokenizer implementation.
+
+This module implements the tokenizer for the LayoutLMv3 model, which is used for
+document understanding tasks. The tokenizer handles both text and layout
+information, including bounding box coordinates.
+
+Example:
+```python
+# Initialize tokenizer from preset
+tokenizer = LayoutLMv3Tokenizer.from_preset("layoutlmv3_base")
+
+# Tokenize text and bounding boxes
+inputs = tokenizer(
+    text=["Hello world", "How are you"],
+    bbox=[[[0, 0, 100, 100], [100, 0, 200, 100]],
+          [[0, 0, 100, 100], [100, 0, 200, 100]]]
+)
+```
+
+References:
+- [LayoutLMv3 Paper](https://arxiv.org/abs/2204.08387)
+- [LayoutLMv3 GitHub](https://github.com/microsoft/unilm/tree/master/layoutlmv3)
+"""
+
+from typing import Dict
+from typing import List
+from typing import Optional
+
+from keras import backend
+from keras.saving import register_keras_serializable
+
+from keras_hub.src.tokenizers.word_piece_tokenizer import WordPieceTokenizer
+
+
+@register_keras_serializable()
+class LayoutLMv3Tokenizer(WordPieceTokenizer):
+    """LayoutLMv3 tokenizer for document understanding tasks.
+
+    This class implements the tokenizer for the LayoutLMv3 model, which handles
+    both text and layout information. It tokenizes text and processes bounding
+    box coordinates for document understanding tasks.
+
+    Args:
+        vocabulary: Optional list of strings containing the vocabulary. If None,
+            vocabulary will be loaded from preset.
+        lowercase: bool, defaults to True. Whether to lowercase the input text.
+        strip_accents: bool, defaults to True. Whether to strip accents from
+            the input text.
+        sequence_length: int, defaults to 512. Maximum sequence length of the
+            tokenized output.
+        **kwargs: Additional keyword arguments passed to the parent class.
+
+    References:
+        - [LayoutLMv3 Paper](https://arxiv.org/abs/2204.08387)
+        - [LayoutLMv3 GitHub](https://github.com/microsoft/unilm/tree/master/layoutlmv3)
+    """
+
+    def __init__(
+        self,
+        vocabulary: Optional[List[str]] = None,
+        lowercase: bool = True,
+        strip_accents: bool = True,
+        sequence_length: int = 512,
+        **kwargs,
+    ):
+        super().__init__(
+            vocabulary=vocabulary,
+            lowercase=lowercase,
+            strip_accents=strip_accents,
+            sequence_length=sequence_length,
+            **kwargs,
+        )
+
+        # Special tokens
+        self.cls_token = "[CLS]"
+        self.sep_token = "[SEP]"
+        self.pad_token = "[PAD]"
+        self.mask_token = "[MASK]"
+        self.unk_token = "[UNK]"
+
+        # Special token IDs
+        self.cls_token_id = self.token_to_id(self.cls_token)
+        self.sep_token_id = self.token_to_id(self.sep_token)
+        self.pad_token_id = self.token_to_id(self.pad_token)
+        self.mask_token_id = self.token_to_id(self.mask_token)
+        self.unk_token_id = self.token_to_id(self.unk_token)
+
+        # Special token masks
+        self.cls_token_mask = backend.constant(1, dtype="int32")
+        self.sep_token_mask = backend.constant(1, dtype="int32")
+        self.pad_token_mask = backend.constant(0, dtype="int32")
+        self.mask_token_mask = backend.constant(1, dtype="int32")
+        self.unk_token_mask = backend.constant(1, dtype="int32")
+
+    def call(self, text, bbox=None, **kwargs):
+        """Tokenize text and process bounding boxes.
+
+        Args:
+            text: A string or list of strings to tokenize.
+            bbox: Optional list of bounding box coordinates for each token. If
+                provided, should be a list of lists of [x0, y0, x1, y1]
+                coordinates.
+            **kwargs: Additional keyword arguments passed to the parent class.
+
+        Returns:
+            A dictionary containing:
+                - token_ids: Tensor of shape (batch_size, sequence_length)
+                  containing token IDs
+                - padding_mask: Tensor of shape (batch_size, sequence_length)
+                  containing padding mask
+                - attention_mask: Tensor of shape (batch_size, sequence_length)
+                  containing attention mask
+                - bbox: Tensor of shape (batch_size, sequence_length, 4)
+                  containing bounding box coordinates (if provided)
+        """
+        # Tokenize input text
+        token_ids, padding_mask = super().call(text)
+
+        # Add [CLS] token at the beginning
+        batch_size = backend.shape(token_ids)[0]
+        cls_token_ids = (
+            backend.ones((batch_size, 1), dtype="int32") * self.cls_token_id
+        )
+        cls_token_mask = (
+            backend.ones((batch_size, 1), dtype="int32") * self.cls_token_mask
+        )
+
+        token_ids = backend.concatenate([cls_token_ids, token_ids], axis=1)
+        padding_mask = backend.concatenate(
+            [cls_token_mask, padding_mask], axis=1
+        )
+
+        # Add [SEP] token at the end
+        sep_token_ids = (
+            backend.ones((batch_size, 1), dtype="int32") * self.sep_token_id
+        )
+        sep_token_mask = (
+            backend.ones((batch_size, 1), dtype="int32") * self.sep_token_mask
+        )
+
+        token_ids = backend.concatenate([token_ids, sep_token_ids], axis=1)
+        padding_mask = backend.concatenate(
+            [padding_mask, sep_token_mask], axis=1
+        )
+
+        # Create attention mask
+        attention_mask = backend.cast(padding_mask, dtype="int32")
+
+        # Process bounding boxes
+        if bbox is not None:
+            bbox_tensor = backend.stack(bbox, axis=1)
+        else:
+            bbox_tensor = None
+
+        return {
+            "token_ids": token_ids,
+            "padding_mask": padding_mask,
+            "attention_mask": attention_mask,
+            "bbox": bbox_tensor,
+        }
+
+    def detokenize(self, token_ids):
+        """Convert token IDs back to text.
+
+        Args:
+            token_ids: Tensor of shape (batch_size, sequence_length) containing
+                token IDs.
+
+        Returns:
+            A list of strings containing the detokenized text.
+        """
+        # Remove special tokens
+        token_ids = token_ids[:, 1:-1]  # Remove [CLS] and [SEP]
+
+        # Convert to text
+        return super().detokenize(token_ids)
+
+    def get_config(self) -> Dict:
+        """Get the tokenizer configuration.
+
+        Returns:
+            Dictionary containing the tokenizer configuration.
+        """
+        config = super().get_config()
+        config.update(
+            {
+                "cls_token": self.cls_token,
+                "sep_token": self.sep_token,
+                "pad_token": self.pad_token,
+                "mask_token": self.mask_token,
+                "unk_token": self.unk_token,
+            }
+        )
+        return config
+
+    @classmethod
+    def from_config(cls, config: Dict) -> "LayoutLMv3Tokenizer":
+        """Create a tokenizer from a configuration dictionary.
+
+        Args:
+            config: Dictionary containing the tokenizer configuration.
+
+        Returns:
+            LayoutLMv3Tokenizer instance.
+        """
+        return cls(**config)
+
+    @classmethod
+    def from_preset(
+        cls,
+        preset,
+        **kwargs,
+    ):
+        """Create a LayoutLMv3 tokenizer from a preset.
+
+        Args:
+            preset: string. Must be one of "layoutlmv3_base",
+                "layoutlmv3_large".
+            **kwargs: Additional keyword arguments passed to the tokenizer.
+
+        Returns:
+            A LayoutLMv3Tokenizer instance.
+
+        Raises:
+            ValueError: If the preset is not supported.
+        """
+        if preset not in cls.presets:
+            raise ValueError(
+                "`preset` must be one of "
+                f"""{", ".join(cls.presets)}. Received: {preset}"""
+            )
+
+        metadata = cls.presets[preset]
+        config = metadata["config"]
+        vocabulary = metadata["vocabulary"]
+
+        # Create tokenizer
+        tokenizer = cls(
+            vocabulary=vocabulary,
+            sequence_length=config["sequence_length"],
+            **kwargs,
+        )
+
+        return tokenizer
diff --git a/keras_hub/src/models/layoutlmv3/layoutlmv3_tokenizer_test.py b/keras_hub/src/models/layoutlmv3/layoutlmv3_tokenizer_test.py
new file mode 100644
index 0000000000..b3ee5858c6
--- /dev/null
+++ b/keras_hub/src/models/layoutlmv3/layoutlmv3_tokenizer_test.py
@@ -0,0 +1 @@
+# ... existing code ...
diff --git a/keras_hub/src/models/layoutlmv3/layoutlmv3_transformer.py b/keras_hub/src/models/layoutlmv3/layoutlmv3_transformer.py
new file mode 100644
index 0000000000..a48c96917c
--- /dev/null
+++ b/keras_hub/src/models/layoutlmv3/layoutlmv3_transformer.py
@@ -0,0 +1,39 @@
+from keras import layers
+from keras.saving import register_keras_serializable
+
+@register_keras_serializable()
+class LayoutLMv3TransformerLayer(layers.Layer):
+    def __init__(
+        self,
+        hidden_size,
+        num_attention_heads,
+        intermediate_size,
+        hidden_act="gelu",
+        hidden_dropout_prob=0.1,
+        attention_probs_dropout_prob=0.1,
+        initializer_range=0.02,
+        layer_norm_eps=1e-12,
+        qkv_bias=True,
+        use_rel_pos=True,
+        rel_pos_bins=32,
+        max_rel_pos=128,
+        name=None,
+        **kwargs,
+    ):
+        super().__init__(name=name, **kwargs)
+        self.hidden_size = hidden_size
+        self.num_attention_heads = num_attention_heads
+        self.intermediate_size = intermediate_size
+        self.hidden_act = hidden_act
+        self.hidden_dropout_prob = hidden_dropout_prob
+        self.attention_probs_dropout_prob = attention_probs_dropout_prob
+        self.initializer_range = initializer_range
+        self.layer_norm_eps = layer_norm_eps
+        self.qkv_bias = qkv_bias
+        self.use_rel_pos = use_rel_pos
+        self.rel_pos_bins = rel_pos_bins
+        self.max_rel_pos = max_rel_pos
+
+    def call(self, hidden_states, attention_mask=None, **kwargs):
+        # Minimal stub: just return hidden_states unchanged
+        return hidden_states 
\ No newline at end of file
diff --git a/tools/checkpoint_conversion/convert_layoutlmv3_checkpoints.py b/tools/checkpoint_conversion/convert_layoutlmv3_checkpoints.py
new file mode 100644
index 0000000000..ad5f55a674
--- /dev/null
+++ b/tools/checkpoint_conversion/convert_layoutlmv3_checkpoints.py
@@ -0,0 +1,367 @@
+"""Script to convert LayoutLMv3 checkpoints from Hugging Face to Keras format."""
+
+import json
+import os
+
+import numpy as np
+import tensorflow as tf
+from transformers import LayoutLMv3Config
+from transformers import LayoutLMv3Model as HFLayoutLMv3Model
+from transformers import LayoutLMv3Tokenizer as HFLayoutLMv3Tokenizer
+
+from keras_hub.src.models.layoutlmv3.layoutlmv3_backbone import (
+    LayoutLMv3Backbone,
+)
+
+
+def convert_checkpoint(
+    hf_model_name_or_path,
+    output_dir,
+    model_size="base",
+):
+    """Convert a LayoutLMv3 checkpoint from Hugging Face to Keras format."""
+    # Create output directory
+    os.makedirs(output_dir, exist_ok=True)
+
+    # Load Hugging Face model, config and tokenizer
+    hf_model = HFLayoutLMv3Model.from_pretrained(hf_model_name_or_path)
+    hf_config = LayoutLMv3Config.from_pretrained(hf_model_name_or_path)
+    hf_tokenizer = HFLayoutLMv3Tokenizer.from_pretrained(hf_model_name_or_path)
+
+    # Get spatial embedding dimensions from the model
+    hf_weights = hf_model.state_dict()
+    x_dim = hf_weights["embeddings.x_position_embeddings.weight"].shape[1]
+    y_dim = hf_weights["embeddings.y_position_embeddings.weight"].shape[1]
+    h_dim = hf_weights["embeddings.h_position_embeddings.weight"].shape[1]
+    w_dim = hf_weights["embeddings.w_position_embeddings.weight"].shape[1]
+
+    # Use maximum dimension for all spatial embeddings
+    spatial_embedding_dim = max(x_dim, y_dim, h_dim, w_dim)
+
+    print(f"\nModel: {hf_model_name_or_path}")
+    print("Spatial embedding dimensions:")
+    print(f"x: {x_dim}, y: {y_dim}, h: {h_dim}, w: {w_dim}")
+    print(f"Using dimension: {spatial_embedding_dim}")
+
+    # Create dummy inputs
+    batch_size = 2
+    seq_len = 512
+    input_ids = tf.random.uniform(
+        (batch_size, seq_len),
+        minval=0,
+        maxval=hf_config.vocab_size,
+        dtype=tf.int32,
+    )
+    bbox = tf.random.uniform(
+        (batch_size, seq_len, 4), minval=0, maxval=1000, dtype=tf.int32
+    )
+    attention_mask = tf.ones((batch_size, seq_len), dtype=tf.int32)
+    image = tf.random.uniform(
+        (batch_size, 112, 112, 3), minval=0, maxval=1, dtype=tf.float32
+    )
+
+    # Build the model with dummy inputs
+    keras_model = LayoutLMv3Backbone.from_preset(
+        f"layoutlmv3_{model_size}",
+        input_shape={
+            "input_ids": (batch_size, seq_len),
+            "bbox": (batch_size, seq_len, 4),
+            "attention_mask": (batch_size, seq_len),
+            "image": (batch_size, 112, 112, 3),
+        },
+    )
+
+    # Build model with dummy inputs
+    _ = keras_model(
+        {
+            "input_ids": input_ids,
+            "bbox": bbox,
+            "attention_mask": attention_mask,
+            "image": image,
+        }
+    )
+
+    # Print shapes of spatial embedding weights
+    print("\nSpatial embedding shapes:")
+    print(
+        f"x_position_embeddings: "
+        f"{hf_weights['embeddings.x_position_embeddings.weight'].shape}"
+    )
+    print(
+        f"y_position_embeddings: "
+        f"{hf_weights['embeddings.y_position_embeddings.weight'].shape}"
+    )
+    print(
+        f"h_position_embeddings: "
+        f"{hf_weights['embeddings.h_position_embeddings.weight'].shape}"
+    )
+    print(
+        f"w_position_embeddings: "
+        f"{hf_weights['embeddings.w_position_embeddings.weight'].shape}"
+    )
+
+    # Word embeddings
+    keras_model.word_embeddings.set_weights(
+        [hf_weights["embeddings.word_embeddings.weight"].numpy()]
+    )
+
+    # Position embeddings
+    keras_model.position_embeddings.set_weights(
+        [hf_weights["embeddings.position_embeddings.weight"].numpy()]
+    )
+
+    # Spatial embeddings
+    x_weights = hf_weights["embeddings.x_position_embeddings.weight"].numpy()
+    y_weights = hf_weights["embeddings.y_position_embeddings.weight"].numpy()
+    h_weights = hf_weights["embeddings.h_position_embeddings.weight"].numpy()
+    w_weights = hf_weights["embeddings.w_position_embeddings.weight"].numpy()
+
+    # Pad smaller embeddings to match the maximum dimension
+    if h_dim < spatial_embedding_dim:
+        h_weights = np.pad(
+            h_weights,
+            ((0, 0), (0, spatial_embedding_dim - h_dim)),
+            mode="constant",
+        )
+    if w_dim < spatial_embedding_dim:
+        w_weights = np.pad(
+            w_weights,
+            ((0, 0), (0, spatial_embedding_dim - w_dim)),
+            mode="constant",
+        )
+
+    # Set weights for spatial embeddings first
+    keras_model.x_position_embeddings.set_weights([x_weights])
+    keras_model.y_position_embeddings.set_weights([y_weights])
+    keras_model.h_position_embeddings.set_weights([h_weights])
+    keras_model.w_position_embeddings.set_weights([w_weights])
+
+    # Create projection matrices based on actual weight shapes
+    x_proj = np.random.normal(
+        0, 0.02, (spatial_embedding_dim, hf_config.hidden_size)
+    )
+    y_proj = np.random.normal(
+        0, 0.02, (spatial_embedding_dim, hf_config.hidden_size)
+    )
+    h_proj = np.random.normal(
+        0, 0.02, (spatial_embedding_dim, hf_config.hidden_size)
+    )
+    w_proj = np.random.normal(
+        0, 0.02, (spatial_embedding_dim, hf_config.hidden_size)
+    )
+
+    # Set weights for projection layers
+    keras_model.x_proj.set_weights([x_proj, np.zeros(hf_config.hidden_size)])
+    keras_model.y_proj.set_weights([y_proj, np.zeros(hf_config.hidden_size)])
+    keras_model.h_proj.set_weights([h_proj, np.zeros(hf_config.hidden_size)])
+    keras_model.w_proj.set_weights([w_proj, np.zeros(hf_config.hidden_size)])
+
+    # Token type embeddings
+    keras_model.token_type_embeddings.set_weights(
+        [hf_weights["embeddings.token_type_embeddings.weight"].numpy()]
+    )
+
+    # Layer normalization
+    keras_model.embeddings_LayerNorm.set_weights(
+        [
+            hf_weights["embeddings.LayerNorm.weight"].numpy(),
+            hf_weights["embeddings.LayerNorm.bias"].numpy(),
+        ]
+    )
+
+    # Transformer layers
+    for i in range(hf_config.num_hidden_layers):
+        # Attention
+        keras_model.encoder_layers[i].attention.q_proj.set_weights(
+            [
+                hf_weights[f"encoder.layer.{i}.attention.self.query.weight"]
+                .numpy()
+                .T,
+                hf_weights[
+                    f"encoder.layer.{i}.attention.self.query.bias"
+                ].numpy(),
+            ]
+        )
+        keras_model.encoder_layers[i].attention.k_proj.set_weights(
+            [
+                hf_weights[f"encoder.layer.{i}.attention.self.key.weight"]
+                .numpy()
+                .T,
+                hf_weights[
+                    f"encoder.layer.{i}.attention.self.key.bias"
+                ].numpy(),
+            ]
+        )
+        keras_model.encoder_layers[i].attention.v_proj.set_weights(
+            [
+                hf_weights[f"encoder.layer.{i}.attention.self.value.weight"]
+                .numpy()
+                .T,
+                hf_weights[
+                    f"encoder.layer.{i}.attention.self.value.bias"
+                ].numpy(),
+            ]
+        )
+        keras_model.encoder_layers[i].attention.out_proj.set_weights(
+            [
+                hf_weights[f"encoder.layer.{i}.attention.output.dense.weight"]
+                .numpy()
+                .T,
+                hf_weights[
+                    f"encoder.layer.{i}.attention.output.dense.bias"
+                ].numpy(),
+            ]
+        )
+
+        # Attention output layer norm
+        keras_model.encoder_layers[i].attention_output_layernorm.set_weights(
+            [
+                hf_weights[
+                    f"encoder.layer.{i}.attention.output.LayerNorm.weight"
+                ].numpy(),
+                hf_weights[
+                    f"encoder.layer.{i}.attention.output.LayerNorm.bias"
+                ].numpy(),
+            ]
+        )
+
+        # Intermediate
+        keras_model.encoder_layers[i].intermediate_dense.set_weights(
+            [
+                hf_weights[f"encoder.layer.{i}.intermediate.dense.weight"]
+                .numpy()
+                .T,
+                hf_weights[
+                    f"encoder.layer.{i}.intermediate.dense.bias"
+                ].numpy(),
+            ]
+        )
+
+        # Output
+        keras_model.encoder_layers[i].output_dense.set_weights(
+            [
+                hf_weights[f"encoder.layer.{i}.output.dense.weight"].numpy().T,
+                hf_weights[f"encoder.layer.{i}.output.dense.bias"].numpy(),
+            ]
+        )
+        keras_model.encoder_layers[i].output_layernorm.set_weights(
+            [
+                hf_weights[
+                    f"encoder.layer.{i}.output.LayerNorm.weight"
+                ].numpy(),
+                hf_weights[f"encoder.layer.{i}.output.LayerNorm.bias"].numpy(),
+            ]
+        )
+
+    # Final layer norm
+    keras_model.norm.set_weights(
+        [
+            hf_weights["norm.weight"].numpy(),
+            hf_weights["norm.bias"].numpy(),
+        ]
+    )
+
+    # CLS token
+    keras_model.cls_token.assign(hf_weights["cls_token"].numpy())
+
+    # Patch embedding
+    patch_embed_weight = hf_weights["patch_embed.proj.weight"].numpy()
+    # Reshape to (height, width, in_channels, out_channels)
+    patch_embed_weight = np.transpose(patch_embed_weight, (2, 3, 1, 0))
+    keras_model.patch_embed.set_weights(
+        [patch_embed_weight, hf_weights["patch_embed.proj.bias"].numpy()]
+    )
+
+    # Patch embedding layer norm
+    keras_model.patch_embed_layer_norm.set_weights(
+        [
+            hf_weights["LayerNorm.weight"].numpy(),
+            hf_weights["LayerNorm.bias"].numpy(),
+        ]
+    )
+
+    # Save the model
+    keras_model.save(os.path.join(output_dir, f"layoutlmv3_{model_size}.keras"))
+
+    # Save the configuration
+    config = {
+        "vocab_size": hf_config.vocab_size,
+        "hidden_size": hf_config.hidden_size,
+        "num_hidden_layers": hf_config.num_hidden_layers,
+        "num_attention_heads": hf_config.num_attention_heads,
+        "intermediate_size": hf_config.intermediate_size,
+        "hidden_act": hf_config.hidden_act,
+        "hidden_dropout_prob": hf_config.hidden_dropout_prob,
+        "attention_probs_dropout_prob": hf_config.attention_probs_dropout_prob,
+        "max_position_embeddings": hf_config.max_position_embeddings,
+        "type_vocab_size": hf_config.type_vocab_size,
+        "initializer_range": hf_config.initializer_range,
+        "layer_norm_eps": hf_config.layer_norm_eps,
+        "image_size": (112, 112),
+        "patch_size": 16,
+        "num_channels": 3,
+        "qkv_bias": True,
+        "use_abs_pos": True,
+        "use_rel_pos": False,
+        "rel_pos_bins": 32,
+        "max_rel_pos": 128,
+        "spatial_embedding_dim": spatial_embedding_dim,
+    }
+
+    with open(
+        os.path.join(output_dir, f"layoutlmv3_{model_size}_config.json"), "w"
+    ) as f:
+        json.dump(config, f, indent=2)
+
+    # Save the vocabulary
+    vocab = hf_tokenizer.get_vocab()
+    # Ensure special tokens are in the vocabulary
+    special_tokens = ["[PAD]", "[UNK]", "[CLS]", "[SEP]", "[MASK]"]
+    for token in special_tokens:
+        if token not in vocab:
+            vocab[token] = len(vocab)
+
+    # Save vocabulary
+    vocab_path = os.path.join(output_dir, f"layoutlmv3_{model_size}_vocab.json")
+    with open(vocab_path, "w") as f:
+        json.dump(vocab, f, indent=2)
+
+    # Save tokenizer config
+    tokenizer_config = {
+        "lowercase": True,
+        "strip_accents": True,
+        "oov_token": "[UNK]",
+        "cls_token": "[CLS]",
+        "sep_token": "[SEP]",
+        "pad_token": "[PAD]",
+        "mask_token": "[MASK]",
+    }
+    config_path = os.path.join(
+        output_dir, f"layoutlmv3_{model_size}_tokenizer_config.json"
+    )
+    with open(config_path, "w") as f:
+        json.dump(tokenizer_config, f, indent=2)
+
+    print(f"\nSuccessfully converted {hf_model_name_or_path} to Keras format")
+    print(f"Output saved to {output_dir}")
+
+
+def main():
+    """Convert LayoutLMv3 checkpoints."""
+    # Convert base model
+    convert_checkpoint(
+        "microsoft/layoutlmv3-base",
+        "checkpoints/layoutlmv3",
+        model_size="base",
+    )
+
+    # Convert large model
+    convert_checkpoint(
+        "microsoft/layoutlmv3-large",
+        "checkpoints/layoutlmv3",
+        model_size="large",
+    )
+
+
+if __name__ == "__main__":
+    main()